基于网络搜索数据的疾病流行性研究.docx

上传人:b****8 文档编号:27905622 上传时间:2023-07-06 格式:DOCX 页数:40 大小:301.97KB
下载 相关 举报
基于网络搜索数据的疾病流行性研究.docx_第1页
第1页 / 共40页
基于网络搜索数据的疾病流行性研究.docx_第2页
第2页 / 共40页
基于网络搜索数据的疾病流行性研究.docx_第3页
第3页 / 共40页
基于网络搜索数据的疾病流行性研究.docx_第4页
第4页 / 共40页
基于网络搜索数据的疾病流行性研究.docx_第5页
第5页 / 共40页
点击查看更多>>
下载资源
资源描述

基于网络搜索数据的疾病流行性研究.docx

《基于网络搜索数据的疾病流行性研究.docx》由会员分享,可在线阅读,更多相关《基于网络搜索数据的疾病流行性研究.docx(40页珍藏版)》请在冰豆网上搜索。

基于网络搜索数据的疾病流行性研究.docx

基于网络搜索数据的疾病流行性研究

摘要

随着信息技术的不断发展,通过网络搜索数据的研究已经成为了大数据分析下的热点问题,在流行性疾病领域方面的研究应用更为深入普遍。

人与人、人与物、物与物已经相互交织,同时网络数据有能够给人们的生活带来极大的便利、提供大量的有用信息,人类的日常生活已经离不开无处不在的互联网了。

流行性疾病的传播速度快、范围广、发病率高,给医院和病人带来极大的挑战,为了缓解流行病爆发给医院带来的诊治压力,以及帮助人们更好的了解和预防流行病,掌握传播途径、发病规律。

本文主要探索XX搜索指数在流行病中的实际应用,探索XX指数与流行性疾病之间的关系。

本论文对网络搜索数据的相关技术进行了研究,用与流行病相关关键词,借助XX指数从中获取与流行病相关的搜索量随着时间变化的趋势数据,对数据进行回归分析,建立相关数学模型并且分析。

发现了流行病的发病时间存在季节性的周期规律,并且XX指数数据与流行病之间存在明显相关性。

因此对人们可以利用网络搜索数据预测未来流行病的发展趋势以及就诊量提供一定的帮助。

关键词:

流行病;XX指数;医疗数据;网络搜索数据

Abstract

Withthecontinuousdevelopmentofinformationtechnology,theresearchofsearchingdatathroughtheInternethasbecomeahotissueundertheanalysisofbigdata,andtheresearchandapplicationinthefieldofepidemicdiseasesaremorein-depthandcommon.Peopleandpeople,peopleandthings,thingsandthingsarealreadyintertwined,andatthesametime,networkdatacanbringgreatconveniencetopeople'slivesandprovidealotofusefulinformation.Too.Therapidspread,widerangeandhighincidenceofepidemicdiseasesposegreatchallengestohospitalsandpatients.Inordertoalleviatethepressureofdiagnosisandtreatmentonhospitalscausedbyepidemicoutbreaksandhelppeoplebetterunderstandandpreventepidemics,Masterthetransmissionrouteandthelawofincidence.

ThisarticlemainlyexploresthepracticalapplicationofBaidusearchindexinepidemics,andexplorestherelationshipbetweenBaiduindexandepidemicdiseases.Inthispaper,weresearchedtherelatedtechnologiesofInternetsearchdata,usedepidemic-relatedkeywords,andobtainedthetrenddataofepidemic-relatedsearchvolumechangeswithtimewiththehelpofBaiduindex.Modelandanalyze.Itisfoundthatthereisaseasonalperiodiclawoftheonsettimeofepidemics,andthereisaclearcorrelationbetweenBaiduindexdataandepidemics.Therefore,itcanprovidesomehelpforpeopletousethenetworksearchdatatopredictthedevelopmenttrendofthefutureepidemicandthenumberofvisits.

Keywords:

epidemic;Baiduindex;medicaldata;websearchdata

第1章绪论

1.1研究背景

互联网的普及率指全市互联网用户数占全市常住人口总数的比例,其反映着一个国家或者地区经常使用互联网的比例,同时也被国际上认为是衡量一个国家或地区信息化发达的重要依据。

中国互联网中心(ChinaInternetNetworkInformationCenter,简称CNNIC)自1998年每年公布两次“中国互联网发展状况统计报告”,抽样方法不仅十分的先进而且范围广,所以统计结果十分具有权威性[6]。

搜索引擎的普及改善了人们只能面对面交流的弊端。

互联网技术的高速发展提高了信息的传播速度和传播广度,同时对于人们及时获得大量信息提高了便捷性。

而随着互联网的快速发展,网络对于人们的生活已经是不可或缺的了。

在日常生活中,当人们生病时,通常会通过搜索引擎对自己的病况根据关键字在互联网上进行搜索,以此获得有用的信息以便进行寻医辅助。

例如:

咳嗽时,人们就会在网络上搜索咳嗽怎么办、如何快速治愈咳嗽、应该吃什么药、咳嗽应该在饮食中注意什么等。

网络搜索(websearch)指的是利用搜索引擎,现在最常使用的搜索引擎是XX、谷歌。

在搜索栏输入相关关键词对互联网上的信息进行搜索得到的信息。

比如我们想了解冠状病毒,就会在网络上以冠状病毒这一个关键词进行搜索,网上就会出现大量有关冠状病毒的相关信息,我们就可以在成千上万条信息中心找到我们想要的。

XX搜索指数是以网民在XX根据关键词进行搜索的搜索量为数据基础,科学的分析并且计算出各个关键词在XX网页搜索中搜索频次的加权和,是目前互联网时代甚至整个数据时代最重要的统计分析平台之一,本文的网络搜索数据就来自XX指数。

在数字化疾病监测中,以谷歌流感趋势为代表的搜索引擎数据已经开始显现出其独特的价值。

2009年,谷歌流感趋势第一次被提出就引起了广泛的关注,也成为了大数据应用的经典案例[7]。

随着网络的快速发展,XX对于中国人民来说已经成为了最主要的搜索引擎。

XX搜索指数是根据用户使用关键字进行搜索的搜索量为基础,搜索指数能够告诉我们某个关键词在搜索引擎的搜索规模有多大、关注这些词的网民是什么样的、分布在哪里,同时还搜了哪些相关的词,帮助我们判断关键词的优化价值并决定是否有必要对该词进行优化。

同时效率很高,基本上在当天就可以获取到当天的搜索数据量,并且制作成相对应的图形反映关键词的数据变化。

传统的流行病指数通常是由相关部门或者政府公布。

比如中国疾病预防控制中心(简称中国疾控中心,英文ChineseCenterforDiseaseControlandPrevention,缩写CCDC)官方公布。

但是一般情况下数据公布并不及时,当月的数据一般会在下个月的公布,所以,对于流行疾病的预防和控制将会因为延迟产生消极影响。

相比之下,XX搜索指数及时记录了用户对于信息的需求和对于流行病相关的搜索关注,对于流行病预防和及时掌握流行病发病规律提供极大的便利性。

1.2研究现状

利用网络搜索数据对各种实际问题实行预测,不同领域国内外的专家们也都进行了大量且准确的研究,研究结果表明,庞大的数据搜索数据和现实生活中的社会行为有相关性,这对于各领域解决各问题都发挥了重要的作用。

2018年,LIS,CHENT,WANGL[1]成分分析支持下的有效旅游量预测及XX指数改进,准确预测旅游量是一项极具挑战性的任务。

以北京市和海南省为例,提出了一种基于XX指数的旅游量预测模型PCA-ADE-BPNN。

验证了该模型的有效性。

结果表明,所提出的PCA-ADE-BPNN在预测精度上始终优于其他模型。

因此,文章提出的PCA-ADE-BPNN是有效预测旅游量的潜在候选方法。

2019年,周晓丽,唐承财[8]基于网络搜索数据对5A景区的客流量进行了预测研究。

5A级景区客流量和网络搜索数据之间确实存在密切的正相关均衡关系和格兰杰因果关系,将网络搜索大数据用于5A级景区客流量预测在方法上具有科学性。

引入网络搜索大数据对5A级景区的客流量进行预测,结果的准确度得到了较大程度的提高与传统仅依据历史接待量数据的预测模型相比,引入网络搜索大数据使得5A级景区客流量预测的准确度提高了12.47%。

2017年,高佳玲[9]的以均衡价格为理论基础,首先从宏微观角度分析住宅价格主要影响因素是供需关系,并以此进行理论分析,从定性的角度阐述新建商品住宅销售价格与网络搜索关键词数据之间的关系,由此得出结论:

网络搜索关键词与西安新建商品住宅价格有较强的相关性;梯度迭代决策树模型融合的预测结果优于单个模型的预测结果,拟合度为0.995;基于网络搜索的相关数据可以比国家统计局提前半个月统计出住宅价格指数,时效性强。

2016年,袁恒[10]在基于网络搜索指数的市场预测模型及应用研究中,探究国内网络搜索数据具有的预测价值出发。

首先,进行消费者网络信息搜索与产品市场销量间相关性的理论框架搭建;并在此基础之上,建立网络搜索指数合成体系,进行预测模型效果对比研究及网络搜索指数源差异比较分析,得出构建的基于网络搜索指数的市场预测模型实际预测精度更高,并且显示出极强的时效性。

在以往相关领域的研究中,搜索数据应用已经十分的广泛,但2017年黄沧达[7]从空间结构角度分析网络搜索数据对手足口病的检测。

探讨了在空间上,网络搜索数据行为的差异特征,验证结果表明,联合使用网络搜索数据和历史病例数据进行预测,就会具有最好的预测效果。

但网络搜索数据具有一定的偏差且未从本文研究的空间角度对网络搜索量进行偏差纠正,有误差。

2017年,张斌儒[11]基于网络搜索数据对旅游需求进行预测,首次引入多模态网络数据(Multi-ModalWebData,简记为MD)并建立BA-RVM-ARIMA&MD混合预测模型。

结果表明,BA-RVM-ARIMA&MD混合预测方法能够有效预测,且ARIMA与多模态网络数据的加入与基准模型相比显著改善了预测性能。

但对于数据收集受限制,所以对于预测还有待进步完善。

崔东佳[12]于2014年,在大数据时代下,依据消费者的搜索记录,在我国汽车的低、中、高端市场分别选取了奇瑞、大众、宝马三个品牌的汽车作为研究对象。

利用网络搜索数据与真实的汽车销量简历回归预测模型,进行整协分析和Granger因果检验分析与检验结果表明,相比传统的汽车销量预测方法,论文中的方法有很高的预测精度,预测效果也随着汽车档次提高而高,此方法对汽车实际销售实施监控,相比于传统的统计部门发布的数据要提前很多,具有实用的预测作用。

2014年,科学院的孙毅、吕本富和陈航等人做了一篇名为《基于网络搜索行为的消费者信心指数构建及应用研究》,移除了基于网络搜索行为构建消费者信心指数的研究设计,研究表明,基于网络搜索行为的消费者的信心指数比传统的消费者信心指数领先于宏观经济景气一致指数6个月的时间。

显然前者的预测预警能力更强,并且对社会零售商品总额短期波动的预测精度更高,相对误差平均降低了30%[13]。

同样,以网络搜索数据为基础还可以建立与预测股票市场的关系。

刘颖与吕本福等人,在鉴于对网络搜索数据的探索研究中,探索发现了搜索数据与股票市场之间存在着先行-滞后关系[14]。

在与本文相类似的对于流感或其他疾病的预测与模型研究,国内外的许多学者也法案表了许多的文章。

2004年,JohnsonHA[2]等人研究了健康网站的访问量和流感疫情之间的相关性。

2015年,BardakB,TanM[3]利用谷歌和维基百科的访问日志的大数据,利用线性回归模型进行流感爆发预测,以两种来源的大数据进行结合,提高了流感爆发的预测能力。

支持向量机在流感预测领域中的应用并不多见。

韩国学者WooH等[4]基于社会媒体数据和Web查询扩展建立了支持向量回归模型,证明使用搜索查询提高韩国流感疫情监测具有可行性。

2018年,北京大学信息管理系的王若佳[15]通过研究网络搜索数据与我国流感方面疫情的内在机理,利用数据搜索关键词的时序特征实现了较为精准的提前预测。

2016年,王若佳在互联网搜索数据的流感预警模型比较与优化中,依据XX搜索数据,分析中文网络关键词和我国流行性疾病监测结果的相关性,通过比较优化模型与仅基于历史信息的时间序列模型、基于搜索数据的最优模型,发现历史数据和搜索数据包含的信息具有一定程度的互补性,联合使用两种数据以此进行预测具有最好的预测效果。

总的来说,国内外的研究都涉及定型或定量的研究方法来研究基于网络搜索数据的相关领域研究,注重基于关键词的搜索,以及分析大量数据调查显示结果来研究。

对于基于网络搜索数据的疾病流行性研究,能够切实掌握流行性病爆发时段、地区,可以实现资源的合理有效配置。

1.3研究内容

分析互联网对于目前社会的必然存在性以及搜索数据已经成为了大趋势事物现状,分析对于疾病流行性基于网络搜索数据研究产生的背景,并且将国内外关于网络搜索数据在相关领域的研究进行深入了解学习,分析研究的优缺点,发现问题找到创新点。

将当前利用网络搜索数据预测流行病的几种方法和模型展开综述进行学习。

本文将借助XX指数平台获取与流行病有关的关键词的搜索量随着时间变化的趋势数据整理从而作为基础进行研究,并且分为周记与月记进行数据分析,建立数学模型并分析,我们就可以从结论中得知流行病的发病的一般性规律,流行病在全年的哪个时间段更容易爆发。

提高基于网络搜索数据的疾病流行性研究的规律准确性。

旨在探索网络搜索数据(XX搜索指数)对疾病流行性的预测作用主要探索的是网络搜索数据在流行性疾病中的实际应用,论文中使用的网络搜索数据均来自XX搜索指数近五年的关键字搜索数据。

拟分析基于咳嗽、鼻塞、发热、腹泻、拉肚子、拉稀等关键词获取到的XX指数(PC+移动)的特点和规律,根据相关的数学原理进行描述性分析得到数据分布情况以及数据间的相关性分析。

重点进行回归分析并且构建多元回归模型,根据回归结果,预测得到的咳嗽就诊值,将拟合值与观测的数据的作对比得出正确结论,网络搜索数据对于流行性疾病预测的必要性。

并且在采集的数据中拟运用eviews探究XX指数数据自变量的相关性,并且进行单位根检验和协整检验确保数据平稳且真实。

根据建立的模型,采用eviews得到的回归结果进行预测分析得到正确结论。

1.4研究方法

1.文献检索法。

首先本文的研究是基于阅读学习大量的参考文献之上,基于网络搜索数据在流行病以及其他领域的研究,分析不同的研究方法与结论,找出以前研究的优点与不足,在应用中避免研究的重复性,在学习国内外一些研究时,无法进行亲自调查研究,需要借助文献搜索法,通过相关资料进行内容整合。

2.比较分析法。

对当前利用网络搜索数据预测流行病的几种方法进行比较,对模型展开综述,学习其中的优点并找到不足之处,找出差距并进行本论文研究的相关创新。

3.数量研究法。

本文将通过对流行病关键词的回归分析,研究其说一句间的相关性进行模型塑造,以此来达到以网络搜索数据为基础的疾病流行性研究的正确认识与研究预测作用。

4.统计分析法。

统计分析方法主要应用于数据的分析和处理,将对使用网络搜索者调查所得的数据、百度指数相关数据通过相关软件进行分析,发现各个变量之间是否存在假设所提出的关系,进而判断假设是否得到支持,理论框架是否合理。

1.5创新点

本文所做的研究是基于XX指数走索数据的疾病流行性的相关,虽然并不是先例,但是本文仍然有可取的创新之处,对流行病的预防与控制仍然有价值。

本文的创新点如下:

(1)谷歌流感趋势在2009年第一次被提出就引起了广泛的关注,在大数据的应用也成为了经典案例。

关于流感疫情和网络搜索数据的研究在2000年以来就人做相关的文章了,但是数据基本上都是基于Google搜索引擎或者其他媒体,而本文是基于中国人习惯于用的XX搜索引擎,XX搜索指数以全球最权威的中文检索数据为基础,具有较高的可信度。

[16]并且更贴近中国人民,所以更能反映中国人民搜索流行病的实际情况,满足对于流行病的研究的需求。

(2)基于XX搜索指数相关研究涉及多方面,比如预测未来一段时间的汽车销量、某旅游景点客流量等。

但是本文是关于医药卫生领域方面的流行病研究,通过对于咳嗽、鼻塞、发热、腹泻、拉肚子、拉稀等关键词的搜索和统计,建立关键词相关的流行病预防研究,不仅可以提供数据给相关部门和医疗机构参考,缓解流行病爆发给医院带来的压力,还可以让市民了解流行病爆发的规律和规模,能够帮助市民更好地加强措施预防流行病。

(3)在传统的分析数据的方法上,增添了建立模型展现二者的关系,模型基于真实数据,使得结果更加准确、客观。

1.6论文结构

分析XX搜索数据进而成为研究网络大数据的主要内容,在将信息应用到流行病的预防监管中,是本文的主要研究思路。

本文一共分为六部分。

第一章绪论,绪论中重点阐明基于网络搜索数据的疾病流行性研究的重要性和必要性,提出研究问题。

详细梳理了与本文研究相关的国内外文献的优缺点,阐述本文的论文结构、研究内容与研究方法。

整理本文中的创新点。

第二章理论基础与预测研究,具体阐述本文应用中涉及到的基本理论知识,并且将对当前利用网络搜索数据预测流行病的方法做综述分析,找到相对应的文献,举出实例。

第三章数据的获取与分析,具体阐述XX搜索指数的采集,并且分析这些数据的特征。

奠定模型理论与数据基础。

第四章基于已有研究成果构建数据模型,对数据进行描述性统计分析,分析模型变量特征以及相互之间的关联性,进一步探讨网络搜索数据和流行病间的关系使用单位根检验与协整检验对数据的平稳性和非伪回归性进行检验。

第五章实证分析,选择XX指数的PC端和移动端建立模型,是因为整体趋势是PC和移动的总和,这样做是为了避免变量间完全共线性,构建状态空间模型,对相关变量进行分析,形成最终的理论模型,做回归模型预测结果分析,验证结论。

第六章总结与展望,发现本文中存在的不足,对将来研究提出可用性建议。

本文旨在探索网络搜索数据(XX搜索指数)对疾病流行性的预测作用,发现两者之间存在的联系,利用数据研究流行病,切实对公共健康数据进行网络监控,降低医护人员面对流行病爆发的就诊压力,促进全民健康。

第2章理论基础与预测研究

2.1理论基础

本文以WilsonTD[5]对信息搜寻行为和信息检索行为的定义作为理论基础。

信息搜寻行为是指人们以满足自己某种目标为目的的搜寻信息的行为,搜寻过程中,可以使用各种各样的方法搜寻到并且使用信息资源,如与计算机系统的交互、与人的交互等。

信息检索行为是信息搜寻行为的子集,它特别关注的是用户端与计算机系统之间的相互作用。

从定义中可以得知,用户端与计算机系统进行交互并且相互作用是信息搜寻行为的一部分,而且,也是用户信息需求的最终结果。

因此本文中对于信息的检索主要是于计算机系统法进行交互获得所需要的相关信息,使用计算机网络进行健康信息的浏览、选择和利用。

现有调查显示[17],大多数个体因自身身体健康原因就会需要健康信息。

更有学者将健康信息需求直接定义为当个体出现自我不适反应对健康状况表示怀疑时,会主动需求相关健康知识[18]。

2.2基于网络搜索数据的预测研究

目前,基于网络搜索数据的疾病预测研究中,主要的方法包括以下三种:

(1)关键词的时序变化

关键词搜索量的峰值与事物变化趋势的峰值在时间上的对应。

识别出关键词的时序特征时可采用时差相关分析法和峰谷对应分析法。

其有预测特征高的关键词能够预测某一领域的未来[19]。

卢洪涛等[20]以H7N9为关键词对时序变化特征进行了分析,得出关键词时序变化特征就是网络搜索关键词的搜索量变化趋势与分析预测对象变化趋势之间存在时间上的领先、同步或滞后特征,发现具有高预测特征性的词主要在禽流感病毒和疾病的名称上,指出可以运用这些关键词预测H7N9爆发初期的趋势。

(2)状态空间模型(statespacemodels)

状态空间模型是以隐含着时间为自变量的动态时域模型,是分析指定时间序列数据之间是否存在同时、领先等相关关系。

杨艳红等[21]使用状态空间模型以关键词“乙肝”分析了对比谷歌趋势与乙肝实际发病数据,并预测未来25周乙肝情况,总误差为8.02%。

(3)动态线性模型(dynamiclinearmodels)

动态线性模型由测量方程和状态方程两部分组成,测量方程是根据时刻t的参数向量描述时刻t对应的因变量Y,状态方程是可建立时刻t的参数向量与下一时刻参数向量之间的联系,从而达到预测的目的。

综上所述,目前基于网络搜索数据的预测研究的方法比较少,且多使用线性模型。

根据关键词的网络搜索数据和流行病之间的关系受地域、季节变化等多重影响,所以两者之间可能将会呈现非线性关系,所做的线性模型将难以很好的拟合。

因此本文根据流行病关键词时序变化趋势,融合相对应的XX搜索指数,进行回归分析做出模型,在线性模型拟合的基础增加对搜索数据是否平稳的单位根检验和避免出现伪回归的协整检验,为相关搜索数据的研究提供参考。

2.3基于网络搜索数据的预测研究优势

生活环境的改变会导致疾病爆发频率的加快和病毒变异的快速性。

近几年,甲型H1N1流感、禽流感等全球性的流感爆发给世界各地区造成了极大的健康威胁和损害。

之前人们只有在流感大面积爆发的时候才会采取相应的措施,在这样就会消耗大量的人力物力财力。

相对于传统的流行病监测系统,网络搜索引擎监测具有明显的优势:

(1)收集省时且迅速,能更快的掌握发病规律。

(2)无地区限制,可以随时调取全国各地区的搜索趋势。

(3)节省大量的人力、物力、财力。

降低成本。

(4)提高对未来流行病爆发的预测能力,更好地更好地监护和促进全体公民的身体健康。

2.4基于网络搜索数据的预测研究意义

基于网络搜索数据研究,在许多专业领域都有十分重要的预测作用。

基于网络搜索数据的疾病流行性的相关预测研究,对于公民、医院和政府都有不同的益处。

1.网民:

通过XX搜索捷径能够及时预防和发现流行病特征,找到对应的解决办法。

网络公众用自己的每一次点击、搜索强化关键词搜索量的同时,与关键词相对应的关联词得到强化,从而营造更准确的数据环境,为大数据挖掘与搜索带来便利。

2.医院:

线上搜索量的变化趋势,可以为医院提供预测数据,在难以预测的流行病爆发前能够有效预测,既可以缓解流行病爆发给医护带来的压力,还能够提前准备人力、物资,控制传播范围,对患者提供最大的帮助。

3.政府:

作为网络监管法律法规的制订完善者和网络空间的重要参与者,政府在面对不同的网络词,应该从掌握网络搜索总量的角度出发,将搜索数据与流行病的医疗诊断数据进行结合,在流行病大面积爆发之前,制订相应的应急处置预案,同时防范因病情的不稳定带来的人力、财力的损失,切实保障公民的合法权益。

第3章数据获取与统计分析

3.1数据的获取

本文采用的数据是基于咳嗽、鼻塞、发热、腹泻、拉肚子、拉稀等关键词获取到的百度指数(PC+移动)。

3.1.1XX指数

本文的网络搜索关键词指数通过XX指数获得。

该数据库是以XX搜索引擎用户的搜索数

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 医药卫生 > 基础医学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1