基于社交大数据挖掘的城市灾害分析纽约市桑迪飓风的案例.docx

资源描述

基于社交大数据挖掘的城市灾害分析纽约市桑迪飓风的案例.docx

《基于社交大数据挖掘的城市灾害分析纽约市桑迪飓风的案例.docx》由会员分享，可在线阅读，更多相关《基于社交大数据挖掘的城市灾害分析纽约市桑迪飓风的案例.docx（11页珍藏版）》请在冰豆网上搜索。

基于社交大数据挖掘的城市灾害分析纽约市桑迪飓风的案例.docx

基于社交大数据挖掘的城市灾害分析纽约市桑迪飓风的案例

基于社交大数据挖掘的城市灾害分析——纽约市桑迪飓风的案例

作者：

王森，肖渝，黄群英，张纯

来源：

《国际城市规划》2018年第4期

摘要：

在城市灾害频发的背景下，社交媒体大数据在灾害分析中所能够发挥的作用得到了越来越多的关注。

对于社交大数据的挖掘和使用，主要体现在诸如灾情感知、信息编码、事件跟踪、灾难救援以及损失评估等领域。

本文以2012年在美国多地特别是纽约市造成了严重影响的桑迪飓风为例，基于社交媒体网站推特（Twitter）以及相关数据库的信息，通过信息编码、分类以及空间网络的对接等方式，研究发现灾前准备、灾害发生、灾害响应和灾后应对等主题随时间、空间发展的趋势等特征。

本文通过构建回归模型描述并讨论了与灾情相关的解释性变量同推文数量间的关系。

与此同时，本文参照MMAM理论①讨论了推文灾情与真实情况的误差产生原因。

研究结果表明，推特信息的数量与人口规模和著名的地标性区域显著相关，个人属性如教育程度、年龄、性别等也对推特信息数量产生影响。

本文希望通过对信息化背景下社交媒体大数据信息的挖掘和分析，从社交媒体信息发布特征的角度认识灾害发生、发展的过程。

Abstract:

Socialmediadataareattractinganincreasingnumberofattentionfortheirhighaccessibilityandeffectivenessonindicatingurbandisasters.Studiesandappliancesaboutsocialmediadataarefocusingonsituationalawarenessandcoding,disasterresponseandrelief,damageassessment,etc.HurricaneSandy,happenedin2012,becomesthesecondlargestcyclonetohittheUSAsince1900,whichcausedcatastrophicdamagetomanyareasespeciallyNewYorkCity.BasedonTwitterandconcerningdatabase,theresearchoutlinesthetemporalandspatialcharactersoftheinformationbycodingschemadevelopment,tweetclassificationandspatialwebportalanalysis.Thelogitregressionmodelinthestudyexaminestheexplanatorypowerforvaryingdemographicandsocioeconomicvariables.Miscalculationanderrorofusingbigdatatoreflectrealsituationarediscussedwithinthescopeofmass,material,access,andmotivation（MMAM）.Resultshowsthatthereisstatisticalsignificancebetweentweetnumberandpopulationaswellaslandmarks.Demographicfactorslikeeducationlevel,age,sexalsoinfluencetweetnumber.ThisstudycontributestopreviousstudiesbyprofilinghurricaneSandy’simpactsusingbigdataminingandanalyzing.

关键词：

社交媒体；大数据；城市安全；减灾；数据挖掘

Keywords:

SocialMedia;BigData;UrbanSecurity;Mitigation;DataMining

自然科学基金面上项目（51778039，51678029）

引言

在自然和人为灾害日趋多发，恐怖活动频繁的背景下，城市安全在全球城市发展中越发受到关注。

在信息时代的背景下，大数据在灾害的分析和促进城市安全方面所发挥的作用被赋予了新的含义。

而来源于社交媒体的大数据以其丰富且持续的数据源成为了大数据研究中不容忽略的领域。

事实上，在灾难来临之时，人们总是希望先从群体中得到灾情的确认，然后再展开自救[1]。

通过社交媒体的信息甄别、辨析、筛选和分析，可以获得相关信息，从而成为监测灾害事件的新手段[2]。

并且，随着全球安全形势的发展，共同对抗恐怖组织潜在的威胁也成为世界各国的关注热点。

相对于自然灾害，恐怖袭击的危害更大、影响更广。

运用社交媒体大数据对可能或已经发生的恐怖袭击进行信息监测、特征分析或许能够成为指导防灾减灾行动的行之有效的手段。

在重要信息获取和应对策略制定的过程中，政府和民众很大程度上依靠的是来源于社交媒体的数据。

而在应对突发自然或人为灾害的过程中，社交媒体所起的作用和潜在的功能同样不容忽视。

通过社交媒体大数据对于恐怖活动进行分析和特征提取从而支持和帮助政府做出防灾减灾决策再次引发了研究者的注意。

在思考应对新型灾害的过程中，越来越多的研究者在评估从社交媒体大数据中进行有用信息挖掘的可能性。

从可持续的城市防灾减灾系统全过程来看，基于社交大数据的灾害信息分析虽然不能直接转化为灾后规划政策，然而却对快速、准确获得灾害信息，判断援救规模、地点和区位，以及针对不同受灾状况定制重建与恢复规划方案有着重要帮助[3]。

因而，社交大数据在灾害分析中的应用，成为安全城市体系构建中的重要一环。

事实上，世界大城市都十分注重运用新方法、新数据、新手段来对于灾害进行分析。

目前已经出现的大数据工具、分析手段和技术依旧有待进一步发展[4]。

本文以2012年纽约市通过挖掘社交媒体数据分析桑迪飓风灾害的案例，系统介绍了针对社交媒体数据挖掘在城市灾害分析中的应用。

1文献综述

1.1信息反馈在防灾减灾中的重要性

充分的信息获取和反馈能够及时、有效地反映灾害信息，从而对于灾害的预防起到基础性的指导作用。

美国联邦政府和联邦紧急事务管理局（FEMA:

FederalEmergencyManagementAgency）自20世纪90年代开始便通过制定培训计划和防灾手册来提升城市的灾害防灾能力。

1988年，美国通过了罗伯特·斯塔福德灾害紧急援助法案（RobertT.StaffordDisasterReliefandEmergencyAssistanceAct），其主要做法是将灾后援助与受灾地区的减灾行动联系起来。

法案实施初期效果并不理想，原因就在于地方政府往往将规划编制当作接受联邦救灾援助的要求，并没有基于辖区内灾害风险和灾害脆弱度进行有效评估。

在灾害发生后，规划也并没有依据受灾情况的变化进行必要的修改和调整[4]。

灾难的表现与特征随时间推移会产生改变，掌握更多的数据信息可以减少在救灾、减灾中因时间推移而产生的问题。

在灾害发生之后，由于对于灾情的不了解或者政府资源有限，灾后援助的力度和范围很难照顾到绝大多数受灾群众。

此外，救灾的公平性、力度与时效性也往往不能兼顾[5]。

及时、准确、有效的信息收集和管理在灾难来临时非常重要[5]。

为此，美国在多个州制定了相关的法律政策来将灾害风险降到最低[6]。

虽然在美国安全防灾体系中，灾前制定灾后复建规划的思想还没有在地方层面广泛推行[7]，然而，这种方法的优势却已经得到了广泛的认同。

这种方式不但可以减轻时间的压力，还可以提高震后决策的准确性和灾民的自发行动能力[8]。

在规划的制定过程中，多元互动的合作模式得到了充分的关注，这种方式能够充分发挥企业和非政府组织的互动，在拓展融资渠道方面有其优势[9]。

同时，公众信息即时获取也成为了救灾与恢复规划过程中的必要环节[10]。

灾害美国—综合灾害灾损评估系统（HAZUS-MH）是美国联邦紧急事务管理委员会于1992年开始设计的系统，其作用是预测在各种灾害发生的情景下的灾害破坏和可能的经济和社会损失。

HAZUS-MH系统充分认识到信息反馈在防灾减灾中的重要作用，用户可以选择更新系统内置的数据库或改变灾损评估模型中的多项参数以适用于特定区域的实际情况[2]。

其中，地方政府根据实际情况的信息反馈及时更新数据库并修改灾损评估参数是提高评估模型在小地理范围准确性的关键。

信息的获取并非单纯反映现状，而是可以根据受灾情况差异、灾民分布等信息，制定有针对性的政策，减少因政策不合理而导致的问题。

如果忽视这样的数据信息分析，将会在灾难过后的重建过程中产生消极的影响。

中国的灾后援救与规划长期是由政府主导并且以建筑重建为核心。

这种自上而下的，以物质规划为主的救灾模式在特定时期有其特有的优势，比如短时间内集中资源，采取一致行动等——但灾前预防、灾后整体性恢复能力仍有待提升。

在唐山大地震震后重建与恢复过程中，规划最初采取了异地重建的规划模式，然而当地居民和企业单位对这种模式并不认可；由于资金的滞后和建设工期的拖延，人们开始在路边建设违反规划的半永久性的简易楼，占用公共设施和工业用地的同时引发后期二次拆迁的问题；盲目追求速度，同一张图纸反复使用导致城市建筑千篇一律，失去地方特色[11]。

个人和社区的参与和合作缺位导致灾害信息不全面，对灾后恢复和重建非常不利。

1.2大数据的趋势和在城市安全方面的应用

以海量的数据规模，快速的数据流转移，多样的数据类型以及价值密度低为基本特征的大数据在当今的社会中扮演了越来越重要的角色[12]。

社交媒体大数据在促进城市安全方面，相较于传统的数据采集手段具有诸多优点：

（1）信息本身即包括空间属性，因此无需二次地理定位处理；

（2）信息的产生具有自发性，提供了源源不断的信息，研究者可以直接收集而不需要额外进行传统的调查；（3）信息更新更迅速，有利于抓住灾后反应的黄金时期。

相比传统的电话访谈、面谈、调研等方式，这种方式能够更快速地得到灾害情况的反馈。

此外，各种灾害在不同阶段之间的转变通常是未知的，四个灾害管理阶段并不总是单独发生或顺序发生，它们之间通常出现周期重叠并且各阶段的时间长度取决于灾难的严重性。

而社交媒体数据可以提供实时的信息，为管理者了解灾害发生的转变提供可靠的依据，并且帮助管理者在不同的阶段做出有效的决策[13]。

例如，在2013年4月15日发生的波士顿马拉松爆炸中，谷歌针对此次事件重启了此前在日本海啸中帮助了很多人寻找亲友的“谷歌寻人”（GooglePersonFinder）页面。

以这种方式来使人们了解失踪及伤亡信息，同时也方便个人提供亲友失踪及伤亡情况，实现了线上灾难信息的共享[14]。

又如，在2010年发生的海地地震中，当地的志愿者团体利用成员分布的地理位置以及伤亡情况信息，在底图上对于这些信息进行了标注，并且发布在了网络上[15]，这有效地实现了公众信息地图的产生，并且为灾难救助提供了及时有效的信息。

1.3基于社交媒体的数据挖掘应用

社交媒体在灾难发生的前、中、后期都可以起到加强沟通的作用[16]。

近几年来，社交媒体已经由被动地信息收集工具发展为紧急情况下的灾难管理工具，从而兼具传播实时的预警信息、接受协助的请求、建立在特定情况下的响应等多重功能[17]。

对社交媒体的数据挖掘应用，主要包括以下四个方面。

1.3.1灾情感知和信息编码

灾情感知（situationalawareness）描述了在包含多种行为主体以及变量的事件中，了解特定受影响的区域究竟发生了什么的过程。

在研究中，通常突出地理为灾情感知（geographicsituationalawareness）的概念，即“在特定空间中究竟发生了什么”。

社交媒体使用者借助互动互联网终端，可以发布具有地理位置坐标的信息，从而及时报告他们所正在经历或目击的事件。

比如桥梁、道路受阻，安置点或者捐助网站的关闭等。

在所发布的消息中显示的有关位置与地名的信息，可以被用来识别基础设施遭到破坏的程度，群众受灾程度，以及辨析疏散区域和资源紧缺地区等[18]。

通过社交媒体网络传播和共享的信息具有多样性，因此有必要在灾情感知以及创建反应灾情的地图前将消息分成不同的类别。

例如，在台风“宝霞”（Bopha）发生期间，有人自发地通过一个微型的危机处理平台将发布的推特信息划分成了不同主题，比如人员伤亡、车辆损坏、建筑损坏和洪水等。

而反应灾情的地图正是依据这些信息建立并且被用于后期援助的；与此同时，有关备源频道（Backchannel）的信息沟通概念也被提出[19]。

在这些信息中，关于伤亡人数、捐助方式以及灾难预警等信息非常有可能被用于提升实时事态感知能力，从而帮助从灾难响应及恢复过程中提取可靠的数据。

然而，这些编码方式的局限在于，对于灾难发生前和发生后的事件可能并不能提供足够的信息[20]。

1.3.2事件检测与跟踪

社交媒体的网络传播以其特有的低成本优势而成为了非常具有竞争力的信息获取方式。

例如，推特拥有超过1.9亿注册用户，每天有超过5500万条信息发布在上面。

在2013年7月6日从韩国首尔起飞的韩亚航空214在旧金山国际机场坠毁的案例中，目击者将含有浓浓黑烟的图片发布到了网上，使这条灾难信息在社交媒体上迅速传播，而立即被全世界所知。

社交媒体传播信息的快捷性、时效性，使其被广泛地应用于事件的检测过程之中，其主要功能包括：

获得空间信息，获得可靠灾害来源，以及聚焦灾害对特定人群的影响。

例如，推特上发布的信息动态与地震灾害之间有相关性，该研究通过回归分析找到事件发生的中心和发展位置轨迹，并构建出时空间模型[21]。

又如，通过对于推特信息的跟踪，研究者还能够得到民众对于猪流感疫情态度的转变趋势，并可以以此测算病毒的传播特征[22]。

研究从推特用户中得到的流感病例数量，准确地评价了传染病的发病水平，这表明社交媒体的信息可以作为维护公共利益或促进公共健康的手段。

也有案例通过收集并整理多个社交网络中的有关于某火灾的信息，采用回归分析的方法推演可能受到影响的社区[23]。

另一案例中，对于飓风艾琳的研究表明，推特消息数量与事件的峰值、事件发生的位置以及用户性别有关系。

该项研究发现，女性对于危机更加关注[24]。

1.3.3救灾救援

在灾难发生时，救援人员难免滞后于受影响的灾民到达事发地点，这就导致了当地的群众成为了最为活跃的信息提供者。

事实上，目击者或受灾群众对于救援的贡献已被广泛承认，例如，人道主义救援和减灾组织（HADR:

HumanitarianAidandDisasterRelief）开始从社交媒体的数据信息中提取宝贵的资料。

这使人们对于社交媒体数据在救灾的关注程度日趋增加。

为了更好地帮助该组织进行跟踪、分析和监测推特上的信息，库玛（Kumar）开发了功能强大的数据分析和可视化的新手段——如实时状态、数据压缩以及历史回顾等，并希望由此提升灾害响应的能力[25]。

高晖吉对于社交媒体在救灾应用的优点和缺点进行了综述，并且阐述了这种模式在加强救灾协调性、准确性和安全性的过程中所面临的挑战[26]。

最近的研究结果还表明，可操作性的数据也可以从社交媒体信息中提取，这对帮助紧急救援人员迅速采取行动十分有效。

例如，阿什特拉比（Ashktorabr）引入了“Tweedr”这样一种信息挖掘工具，它可以帮助灾害救援人员提取有用的信息用于救援[27]。

该系统由三个主要部分组成：

分类（classification），聚类（clustering）以及提取（extraction）。

又如，普鲁西特（Purohit）提出了一套检测方法来自动识别和匹配需求，以实现供求双方对于物资、服务的关联与匹配[28]。

因而，在灾害援救中，可以通过社交媒体数据分析和可视化，在自动识别灾害发生时间、地点、灾害程度和受灾对象等几个方面提供有效的帮助和支持。

1.3.4损害评估

对于城市遭遇灾害和紧急事件的地区，首要的工作就是评估人员伤亡和财产损失，精准的灾害评估有助于接下来协调疏散和救援行动的展开。

目前，因为遥感卫星能够收集大量动态、具有时空信息的数据，成为灾害评估的常用手段。

然而，受制于仪器或平台，基于遥感的海量数据可能并不能充分发挥作用。

因此，自发性地理数据（VGI:

VolunteeredGeographicInformation）可以作为传统的遥感数据的有益补充。

例如，运用该工具可以估算因为洪水而影响的道路[29]。

在这些工作中，各种非官方的多源数据，如微博、谷歌带有地理信息的街景照片、监控探头中交通流量的信息，Youtube和新闻等都可以用来辅助评估灾害程度[30]。

此外，社交媒体数据还可以帮助人们了解社会舆论或情绪走向，提取有用信息以协助灾害救援[31]。

灾害评估本身需要很长的时间、大量的人力和物力来进行。

在灾害发生之后，人们不得不在速度和准确性之间进行取舍，这就使社交大数据的优势得到充分体现——收集和分析这些数据所需的代价，比传统数据低很多[32]。

如果能够实现科学的分类与归纳，将能够有效辅助灾害救援的展开。

2数据与案例

本文以2012年在美国纽约市发生的桑迪飓风（HurricaneSandy）为案例，探讨基于推特的社交媒体信息在灾害分析过程中的应用。

桑迪飓风是自20世纪以来袭击美国的第二大的飓风，造成了Brigantine地区的山体滑坡，并导致了东北部地区巨大的破坏。

桑迪飓风所造成的直接经济损失估计达到五百亿美元，共72人在本次灾难中丧生。

桑迪飓风对纽约市的影响尤为严重（图1），风暴造成约两百万当地居民电力中断。

在受损最为严重的地区，电力系统在若干月后才得以恢复[33]。

纽约的地铁系统遭受了百年来最严重的雨水倒灌；而机场、隧道以及其他的交通设施同样遭受严重的破坏——两周以后大部分的受损设施才得以恢复运行。

风暴同样导致了数千居民流离失所，近620户居民的房屋遭到破坏，8500户的基本生活受到影响，临时性住房和安置点的服务需求量激增。

根据纽约市政府的统计，大约6800名受风暴影响的居民被安置在了73处临时安置点中，其余的灾民选择借住于朋友或亲属家中。

值得注意的是，在本次灾害的处置过程中纽约市政府除了依靠传统媒体，还通过新型社交媒体发布了诸多重要信息，其中包括了推特以及YouTube等。

政府在灾难期间通过推特发布了超过2000条信息并获得了多于17.5万个关注。

根据以上信息，可以建立基于社交大数据的灾害分析研究框架（图2）。

在研究框架中，基于推特上关于飓风桑迪对于纽约市造成影响的相关信息，通过标准制定、信息分类和空间网络连接等三个部分，分别对接大数据背景下社交媒体在灾害管理中的应用。

首先，通过对于飓风桑迪过境前后时间节点的控制，将若干条与灾难有关的信息纳入空间数据库。

其次，通过对于信息主题的检验筛选出有效信息，并依据灾难发生的时间节点将信息主题分为47个类别，并通过对于数据的统计与处理得到了分类的信息。

最后，将包含时空信息的推特内容在底图上进行标识并进行实时状态演示，并通过回归分析对于信息在空间网络上的连接做出评估和结论验证，从而得出研究结论。

3分析结果

3.1信息主题的时间发展趋势

实证研究发现，社交数据信息的发布与灾害发生自身周期紧密相关——根据准备、防灾、援救、恢复等灾害四个阶段划分，人们上传社交信息的性质也是不同的。

具体来说，推特用户在灾难初期主要发布备灾相关的内容，而灾难后主要发布与恢复相关的内容，因此有必要随着时间的推移比较不同的灾难时期的主题。

推特信息发布量的数据显示，在灾害的不同阶段发布信息主题的特征也不尽相同（图3）。

不难发现，在10月24日灾害发生之前以及11月21日灾害基本恢复之后，只有少量的推特信息与灾难相关。

而在飓风桑迪袭击纽约市的前几天，新闻媒体广泛而持续地报道了风雨和洪水将可能在10月29日晚袭击城市。

在10月28日当美国总统奥巴马宣布纽约市进入紧急状态后，有关灾前准备工作的信息数量达到顶峰。

推特信息显示，通过媒体提醒，民众开始为即将到来的风暴做好了准备——诸如为手机充电，在零售店中购买应急工具包、蜡烛、手电筒、发电机及备用电源等物资等。

研究同时发现，在10月29日之前信息发布的主题主要以准备工作为主，而没有关于灾难应急响应有关的信息。

而这些以备灾为主的信息在11月29日达到顶峰（图3）。

而受灾相关的信息，主要集中在10月29日—11月3日之间。

有关飓风过境有关影响的话题数量在10月30日达到最大值，而这一天恰好是在桑迪离开纽约之后的一天；另一方面，当飓风减弱后，可以发现有越来越多的推特信息与灾后恢复主题有关。

特别是在次年1月2日以后，恢复重建成为了主要的讨论话题。

在灾后恢复信息方面，推特信息的发布数量出现了几个波峰（图3）。

第一次是在10月30日桑迪袭击了纽约市之后一天；而第二次高峰集中在被桑迪袭击之后的第一个周六，许多人选择这一天捐款。

而在11月10日另一次小高潮中，推特上的信息更关注志愿服务和灾后重建。

3.2信息主题的空间分布特征

不同类型的信息在空间分布上也不尽相同，这反映了不同个体属性的人群或不同场所中的人群对灾害的反映差异。

通过可视化的方式，可以展现市民在社交媒体上的空间差异。

通过关注三个灾难发生阶段不同地理分布位置的推特信息的特征，可以发现某些场所公众发布灾难的信息更为踊跃（图4）。

例如，很多推特报灾信息都来自曼哈顿南部社区，比如在哈德逊河西岸受飓风和洪水严重破坏的霍博肯（Hoboken）市以及东岸的布鲁克林区。

这说明在受灾严重地区的推特用户，更有可能提供指导救灾的信息。

此外，更高的人口密度和便捷的网络连接，也为大量信息发布提供了良好的基础。

例如，在曼哈顿岛产生的大量信息（图4f）中，很多信息来源于公共场所，比如中央公园、肯尼迪国际机场和拉瓜迪亚机场等。

研究同时发现，在灾难的不同阶段机场的信息发布内容也呈现多样化的特点。

人们会在飓风来临之前发布有关离开纽约的信息，在飓风来袭之中报告航班取消或受损的情况，也会分享机场恢复运作的相关消息。

研究还发现大量推特信息来自东北部的海湾地区，这是因为推特也包含了另外一个社交媒体网站Foursquare的信息。

在这个版块内，包括了相关的照片、受灾更新的信息和来自东北部海湾地区用户的信息提示。

此外，从推特发送信息的位置和内容关联来看，从中央公园所发布的推特信息数量庞大，人们会发布树木折断或公园关闭的信息。

哈得逊河沿岸地区则关注林肯隧道和荷兰隧道的关闭——这可能是由于这个地方的居民必须经由两个隧道到曼哈顿岛。

因而这些居民更关注隧道内积水的涨退、隧的封闭与开启等情况，这些信息对于灾后的恢复具有重要的意义。

3.3信息数据的影响因素及有效性

上述理论研究和实证分析描述出了社交媒体数据与飓风过境时空存在关联的可能性。

在下面的章节中，本研究采用逻辑回归的方式讨论哪些因素可能影响推文数量。

模型引入的变量包括人口规模（X1）、受淹地区面积（X2）、种族（X3）、年龄（X4）、性别（X5）、房价（X6）、教育水平（X7）、房屋价格中位数（X8）等。

为了检验这些变量能在多大程度上影响用户发推文的数量，研究比较了以下四组模型：

模型1TweetNum=α+β1X1+e

模型2在模型1的基础上，增加了受淹地区所占比例及其平方，重点分析区域

展开阅读全文

基于社交大数据挖掘的城市灾害分析 纽约市桑迪飓风的案例.docx

基于社交大数据挖掘的城市灾害分析纽约市桑迪飓风的案例.docx