中国数据新闻技术与新闻生产的再造文档格式.docx

资源描述

中国数据新闻技术与新闻生产的再造文档格式.docx

《中国数据新闻技术与新闻生产的再造文档格式.docx》由会员分享，可在线阅读，更多相关《中国数据新闻技术与新闻生产的再造文档格式.docx（9页珍藏版）》请在冰豆网上搜索。

中国数据新闻技术与新闻生产的再造文档格式.docx

[1]

在实践中，数据新闻已成为新闻媒体数字化战略中最重要的组成部分。

对于这些媒体的网站来说，其主要功能已从之前“新闻/信息”传递逐渐转变为“新闻/信息”分享与互动。

在这个新角色下，新闻媒体希望提供更多的方式，让受众与其所提供的内容进行互动，并参与到内容的再生产过程中，而数据新闻正好能够实现这些功能。

[2]

同时，大数据成为新闻业不得不去面对的现实存在，其所内嵌的技术逻辑也在挑战着关于新闻认识论的传统理解。

例如，基于数据处理过程，新闻生产过程被重新理解为获取/观察、选择/过滤和加工/编辑。

获取/观察这一环节便涉及计算机化的把关，记者利用一系列软件和工具，自动并持续关注政客们的言行。

[3]

Lewis和Usher就提出了一个在开源网络技术背景下理解新闻的新框架。

其中，新闻被想象为源代码，即记者在初始阶段提供新闻的基本要素和材料，而当发表后，读者们便参与到新闻的发展推进过程中。

同时，记者被想象为知识管理者，即记者不仅仅是信息的传递者，而且是知识生产的参与者。

[4]

同样，在新闻的分发环节，对于受众的想象也要被重新定义，即他们不再是被动的接收者，而是更主动地参与到新闻过程当中，获取知识，并利用新闻所提供的原始数据，来形成自己独特的新闻叙事，如互动新闻和数据库等。

[5]因此，新闻机构都试图让受众更容易接触到这些数据，并对它们做更为详细的标注和说明，从而使其更易理解。

[6]

因此，基于文字的传统新闻叙事，也因数据驱动的新闻实践的介入而发生着改变。

在传统的叙事结构中，新闻将相关的材料及其消息源一并按照一定的逻辑和顺序组织起来，不同的部分有着清晰的过渡。

其间伴随着插入话题和偏题，但持续时间不长，且颇为克制。

然而在数据新闻中，更多的主动权交由读者，由其来控制互动的方式与新闻故事的走向与方式，因此在其叙事中，逻辑与顺序并不明显，偏题和插入也更为频繁。

[7]

本文通过对一系列数据新闻实践案例进行考察与梳理，试图探究它们作为一种技术和逻辑，是如何影响到整个新闻生产流程的。

三研究发现

事实上，数据新闻的源头可回溯至早期的计算机辅助报道。

[8]尽管作为一项有着较长历史的新闻实践，计算机辅助报道在很大程度上局限于较小范围内新闻记者群体的实践。

其中重要原因之一便在于此项实践本身所设计的软件技术问题，如高昂的软件费用以及复杂的操作流程等。

随着开源软件运动的兴起，大量免费的网络服务和简化的软件应用降低了技术门槛，从而使数据新闻的推广和普及成为可能。

因此，数据新闻也便与开源运动的基本精神——开放性形成了天然的连接。

这种开放性精神，随着数据新闻在全球各地新闻室的扩散，渗透至新闻生产过程中。

（一）关联数据与新闻室中的数据共享

阅读他人撰写的报道是新闻室中许多记者迅速获取信息的最重要方式之一。

然而，这是一种颇为低效的方式。

记者们需从大量低关联度的报道中去寻找诸如某个日期、单词的拼写或是某则背景信息等。

同时，新闻事件在不断发展中，相关数据也随之变动，这给工作增加了更大的难度。

此外，新闻室中的电脑里，存储着记者们在新闻采访过程中积累下来的大量数据。

然而，这些分散的数据因无法便捷地在同处于新闻室中其他记者之间进行分享，而降低了整体的新闻采集效率。

在传统的新闻室中，因为信息获取较为困难，这些数据被视为条线记者的个人资源。

[9]随着政府信息公开运动的推进，记者们面对的问题从信息稀缺转化为信息过载。

同一新闻室记者在各自的新闻采集过程中，可能会进行重复的数据收集。

针对此问题，《芝加哥论坛报》的前程序员ChristopherGroskopf便开发了一款用于整合新闻室内部数据资源的系统Panda。

利用此系统，同一新闻室里的记者之间不仅可通过该系统共享各自制作的数据表格，还可以对储存其上的整个新闻室的数据进行全局搜索。

与简单搜索不同，它提供了多种方式的精准搜索方式，如搜索某一指定列中数据，抑或是搜索某一类别的数据等。

此外，某一项公开数据需与记者为获得它而提出的数据公开申请书并置在一起，才能更好理解这些数据的意义。

针对采访过程中收集整理的数据需辅以大量解释性文档的问题，Panda配置了相关文件系统来完成对所存储的数据的注解。

同时，对于新闻室中从事调查新闻报道的记者来说，管理其在采访、调查和研究过程中累积的一系列数据，尤其是文本数据是其工作中最为繁重的任务之一。

由美联社开发的Overview便是一款试图去帮助记者们对大量文本文件数据进行清洗、可视化和分析的工具。

它其中包括文字识别系统、搜索引擎、词云、命名体识别和文件主题聚类等模块。

它可分析的文本数据类型也非常丰富，涵盖了电子邮件、PDF格式文档、社交媒体内容以及在线评论等。

通过用户对文本自行添加标签，系统可以自动对这些文本数据进行主题建模并聚类，从而将大量貌似无序的文档组织起来。

基于组织起来的数据，记者们可根据不同的模型和方式来对它们进行意义的发掘，或是从海量文档中寻找某一份或几份与报道极为相关的文档[10]，或将系统生成的聚类作为报道起点[11]，抑或是对这些海量文本进行筛选[12]。

以上案例中数据的挖掘与分享，仍然是针对某一具体话题或事件，不同话题和事件之间并不存在太多的联系。

然而，在社交媒体驱动新闻的当下，打通和勾连不同事件之间的关键要素，将会大大提升记者们的工作效率。

BBC从2012年伦敦奥运会报道便开始推进“关联数据”计划。

所谓“关联数据”，便是将之前散落在各处、涉及某个新闻话题的各方面信息勾连，其中包括采访中的引语、背景资料以及新闻报道等。

正是借助此项计划，在奥运会报道中，BBC能够即时更新几百名运动员和比赛项目的页面。

实现对数据进行关联的核心便是BBC自主研发的关键数据提取工具Juicer。

该工具的基本功能就是通过语义分析技术，从超过600个国际媒体消息源的大量新闻报道中提取有意义的关键数据。

具体流程是先获取新闻内容，然后从文章中提取关键概念，并将它们与自建数据库中已有数据进行比对，之后将符合的内容进行标注并入库，最终可通过API接口调取这些数据。

对于记者来说，需要做的就不仅仅是之前那样根据自己采访和资料收集撰写单独的新闻报道，他还要将其整个新闻采集过程与对“关联数据”库的使用和维护相结合，即在报道过程中，一方面要参考库中的数据，提高报道效率；

另一方面，记者在采访过程中新采集到的原始信息，如消息源姓名、机构和组织信息等，都要录入库中，并标记他们之间的关系。

这样，先前孤立出现在单个报道中的关键性信息，通过“关联数据”将被重新激活，知识在关联过程中被不断积累，并可根据需求被随时调取、查询与使用。

从另外一个角度看，这些关联后的数据所构成的新闻知识是结构化的，即按照一定的规则将分散的信息组织起来，它与我们之前所理解的松散的新闻信息形成对比。

（二）数据库的工具化

自建数据库，对于从事数据新闻报道的团队来说，逐渐成为一种必要的信息基础设施。

一方面，是由于大量开源数据库开发工具的出现，建库的成本大大降低。

另一方面，与之前将数据库作为报道的辅助工具不同，新近的数据新闻项目则在探索，如何将数据库产品化为可被政府、记者和公众各方都能使用的服务，而不是内部的私密资源。

克罗地亚的非政府机构GONG的“影响力马赛克”项目便是一个主要跟踪政治敏感人物的数据库。

该数据库从公共信息中，搜集、提取并分析那些有着重要政治影响力人物的动态，主要侧重于他们与公共和私营公司与机构之间的关系。

由于对分散在各处的数据进行了整合和加工，该数据库使得包括调查记者在内的专业人士在对这些敏感人物进行调查和报道时，可极大提升信息搜寻的效率和准确度。

对于新近更多涉及数据新闻的项目来说，它们关注的不仅仅是数据库的开放问题，而且更重要的是，如果基于这些自建数据库，开发出可用于日常研究和报道的工具和应用，可以降低各方使用数据库的门槛。

GlassPocketWatch是匈牙利的非营利调查新闻机构Atlatszo.hu发起并维护的，一个旨在督促政府和公共机构进行即时数据更新的工具。

[13]根据匈牙利2003年通过的“透明口袋”法案，政府部门有义务及时公开其掌握的数据。

该数软件时时跟踪、监测这些政府机构网站的公开数据部分，一旦有变动或更新，系统将立即提醒订阅者，同时并将这些数据发布到公众可接触到的数据库中。

此外，该软件独特的算法自动计算这些网站的更新频率与习惯，一旦它们未及时更新，软件便会向相关部门和个人发出预警，提示他们做出回应。

罗马尼亚深度报道中心[14]也正在测试一款有助于调查记者进行协作的开源数字工具。

该款工具最大的特征在于它的分布式和非等级化的数据分析。

分布式意味着使用者们可以更快地分享信息与数据，而非等级化则意味着他们可以自由地对这些数据进行讨论和标注，而这又将会因对数据进行多次发掘，而释放出更大的潜力。

同时，针对当下调查记者的工作与生存环境，此款数据共享与分析软件专门在轻量、移动和安全保密这几个方面做了适配，尤其适合便携设备使用。

工具开发者们的目标就是，在新闻项目的开展过程中，各方可以一种分布式、流动的方式展开信息和数据上的合作。

（三）基于数据的事实核查

作为记者日常新闻采集过程中的关键环节，事实核查是确保新闻报道的准确性以及新闻媒体可信度的重要屏障。

随着新闻的社交媒体化，新闻失实大规模爆发，成为困扰媒体与公众的难题。

特别是在2016年美国大选期间，竞选人可能向公众发布不实信息，成为大选中最为重要的议题之一。

如何利用数据新闻提供的可能性去抵御假新闻的冲击，各方也纷纷做出尝试。

由公共数据实验室（PublicDataLab）和第一草案（FirstDraft）合作推出的“假新闻识别指南”项目便是讨论如何利用数字方法来追踪假新闻的生产、传播与接收的过程。

其中一项重要方法，便是利用网站中的跟踪器去识别和跟踪假新闻的传播过程。

所谓跟踪器，就是每个网站都具有的跟踪访客信息的代码，其中包括访客数量、访客浏览网页的习惯以及广告的效果等。

预先收集一批已被公认为发布假新闻的网站，利用DMITrackerTracker（跟踪信息识别工具）去分析这些网站跟踪信息的特征，并建立关系网络档案。

当某个网站被怀疑可能涉嫌发布虚假新闻时，只需要将该网站的跟踪信息与之前建立的关系网络进行关联性比对，从而去评估它的可信度。

基于该原理，BuzzFeed利用跟踪器中相关广告信息，去探究假新闻网站与在线广告平台之间的关系。

通过分析107家样本网站，BuzzFeed发现，其中超过60家依靠这些在线广告平台营利。

同时，它们利用这些平台上的漏洞，通过制作具有欺骗性质的新闻标题，取得平台的自动推荐，从而获取点击率完成套现。

同样，Kaggle平台上的GettingRealaboutFakeNews项目致力于收集假新闻网站，并对网站的关键信息进行分析和归纳，其中包括URL地址、跟帖与回复数量以及被分享的次数等。

在对244个假新闻网站的12999个帖子进行分析后，总结出这些帖子的传播特征，并将这

展开阅读全文