数据标注工程PPT课件-数据采集与清洗.pptx

上传人:zf 文档编号:30779237 上传时间:2023-08-26 格式:PPTX 页数:16 大小:1.50MB
下载 相关 举报
数据标注工程PPT课件-数据采集与清洗.pptx_第1页
第1页 / 共16页
数据标注工程PPT课件-数据采集与清洗.pptx_第2页
第2页 / 共16页
数据标注工程PPT课件-数据采集与清洗.pptx_第3页
第3页 / 共16页
数据标注工程PPT课件-数据采集与清洗.pptx_第4页
第4页 / 共16页
数据标注工程PPT课件-数据采集与清洗.pptx_第5页
第5页 / 共16页
点击查看更多>>
下载资源
资源描述

数据标注工程PPT课件-数据采集与清洗.pptx

《数据标注工程PPT课件-数据采集与清洗.pptx》由会员分享,可在线阅读,更多相关《数据标注工程PPT课件-数据采集与清洗.pptx(16页珍藏版)》请在冰豆网上搜索。

数据标注工程PPT课件-数据采集与清洗.pptx

,2.1标注对象,第二章数据采集与清洗,2.1.1主要的数据来源,大人群产生的海量数据,大量传感器产生的海量数据,科学研究和各行各业越来越依赖大数据手段来开展工作,庞大数据三大来源,2.1标注对象,第二章数据采集与清洗,2.1.1主要的数据来源,按照产生数据的主体,具体可细分为以下来源,1,少量企业应用产生的数据,如关系型数据库中的数据和数据仓库中的数据等。

2,大量人产生的数据,如推特、微博、通信软件、移动通信数据、电子商务在线交易日志数据、企业应用的相关评论数据等。

3,巨量机器产生的数据,如应用服务器日志、各类传感器数据、图像和视频监控数据、二维码和条形码(条码)扫描数据等。

2.1标注对象,第二章数据采集与清洗,2.1.2常见的标注数据,数据来源多种多样,数据量也越发庞大,即使如此,并不是每种数据都适合标注,具体而言,常见的标注对象主要分为图像与视频、语音、文本。

1.图像与视频数据。

对街景的画框标注;对人脸图像做描点处理。

按照图像展示对象,又可分为人脸数据、车辆数据以及街景数据等。

2.语音数据。

在实际应用中,语音处理软件Praat、Transcriber、SPPAS等都是常用的语音标注工具。

3.文本数据。

可通过IEPY、DeepDive(Mindtagger)、BRAT、SUTDAnnotator、Snorkel、Slate、Prodigy等开源文本工具进行标注。

2.2数据采集,第二章数据采集与清洗,2.2.1数据采集方法,就数据获取而言,大型互联网企业拥有稳定安全的数据资源。

对于其他大数据公司和大数据研究机构而言,获取大数据的方法主要为:

1.系统日志采集。

Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等,采用分布式架构,能满足大数据的日志数据采集和传输需求。

2.互联网数据采集。

通过网络爬虫或网站公开API等方式从网站上获取数据信息,还可以使用DPI或DFI等带宽管理技术实现对网络流量的采集。

3.APP移动端数据采集。

APP是获取用户移动端数据的一种方法,APP中的SDK插件可以将用户使用APP的信息汇总给指定服务器。

4.与数据服务机构进行合作。

数据服务机构通常具备规范的数据共享和交易渠道,人们可以在平台上快速、明确地获取自己所需要的数据。

2.2数据采集,第二章数据采集与清洗,2.2.2数据采集流程,首先是数据源(source),这是数据采集的基地,再者是缓冲区(channel),即中间站点,最后是目的地(sink)数据的归宿。

在这个过程中,通过source采集的数据进行封装以后,以单元(event)作为传输数据的基本单位,在source与sink之间进行流动(flow),具体运行过程如下:

2.2数据采集,第二章数据采集与清洗,2.2.3标注数据采集,1.人脸数据采集。

年龄分布、性别分布、人种分布、表情类型、拍摄环境、图片尺寸、文件格式、图片数量、适用领域。

2.车辆数据采集。

车型分布、车辆颜色、拍摄时间、车牌颜色、图片尺寸、文件格式、图片数量、适用领域。

3.街景数据采集。

采集环境、路况覆盖、数据规模、拍摄设备、图片尺寸、文件格式、图片数量、适用领域。

4.语音数据采集。

采集数量、性别分布、是否做内容转写、录制环境、录音语料、录音设备、音频文件、文件数量、适用领域。

5.文本数据采集。

采集内容、文件格式、编码格式、文件数量、适用领域。

2.3数据清洗,第二章数据采集与清洗,数据清理主要是达到数据格式标准化、异常数据清除、数据错误纠正、重复数据的清除等目标。

数据集成是将多个数据源中的数据结合起来并统一存储,建立数据仓库。

数据变换是通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。

数据归约是指在对挖掘任务和数据本身内容理解的基础上,寻找依赖于发现目标的数据的有用特征,以缩减数据规模,从而在尽可能保持数据原貌的前提下,最大限度地精简数据量。

数据清洗原理示意图,2.3数据清洗,第二章数据采集与清洗,数据清洗包括以下应用方法:

处理缺失值数据的收集过程很难做到数据全部完整。

处理缺失值的方法有3种:

1.忽略元组2.数据补齐(人工填写、特殊值填充、平均值填充、使用最有可能的值填充)3.不处理噪声数据噪声(noise)是一个测量变量中的随机错误或偏差。

造成这种误差有多方面的原因,例如,数据收集工具的问题,数据输入、传输错误,技术限制等。

可以通过对数值进行平滑处理而消除噪声。

主要使用的技术有:

1.回归2.分箱3.孤立点分析重复数据在数据库中,对于属性值相同的记录,可以将其看作是重复记录。

2.3.1数据清洗方法,2.3数据清洗,第二章数据采集与清洗,在具体的数据清洗过程中,可以按照以下具体流程开展:

1.明确错误类型。

在这个环节,可以通过手动检查或者数据样本等数据分析方式,检测分析数据中存在的错误,并在此基础上定义清洗转换规则与工作流。

根据数据源的数量以及缺失、不一致或者冗余情况,决定数据转换和清洗步骤。

2.识别错误实例。

在识别过程中,如果采用人工方式,往往耗时耗力,准确率也难以保障。

为此,在这个过程中,可以首先通过统计、聚类或者关联规则的方法,自动检测数据的属性错误。

对于重复记录,可以通过基本的或者是递归的字段匹配算法、SmithWaterman算法等实现数据的检测与匹配。

3.纠正发现错误。

对于纠正错误,则按照最初预定义的数据清洗规则和工作流有序进行。

其中,为了处理方便,应该对数据源进行分类处理,并在各个分类中将属性值统一格式,做标准化处理。

此外,在处理之前,应该对源数据进行备份,以防需要撤销操作或者数据丢失等意外情况。

4.干净数据回流。

通过以上三大环节,基本已经可以得到干净数据,这时需要将将其替换掉原来的“脏”数据,实现干净数据回流,以提高数据质量,同时也避免了重复进行数据清洗的工作。

2.3.2数据清洗流程,2.3数据清洗,第二章数据采集与清洗,2.3.3MapReduce数据去重,假设目前采集了两个文本文件,里面涉及不少重复数据,具体如左图:

对于上述两个文件中的每行数据,我们都可以将其看作是Map和Reduce函数处理后的Key值,当出现重复的Key值,就将其合并在一起,从而达到去重的目的。

如右图:

1.数据主要有哪三大来源?

2数据采集方法有哪些?

3数据采集流程是怎样的?

4如何看待基于Flume的数据采集?

5针对不同的业务需求,数据清洗的方法有哪些?

6如何看待基于MapReduce的数据清洗?

习题:

感谢聆听,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 初中教育 > 中考

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1