实训项目4跨境电商数据清洗13页文档格式.docx

上传人:b****2 文档编号:15094915 上传时间:2022-10-27 格式:DOCX 页数:12 大小:580.25KB
下载 相关 举报
实训项目4跨境电商数据清洗13页文档格式.docx_第1页
第1页 / 共12页
实训项目4跨境电商数据清洗13页文档格式.docx_第2页
第2页 / 共12页
实训项目4跨境电商数据清洗13页文档格式.docx_第3页
第3页 / 共12页
实训项目4跨境电商数据清洗13页文档格式.docx_第4页
第4页 / 共12页
实训项目4跨境电商数据清洗13页文档格式.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

实训项目4跨境电商数据清洗13页文档格式.docx

《实训项目4跨境电商数据清洗13页文档格式.docx》由会员分享,可在线阅读,更多相关《实训项目4跨境电商数据清洗13页文档格式.docx(12页珍藏版)》请在冰豆网上搜索。

实训项目4跨境电商数据清洗13页文档格式.docx

跨境电商数据清洗是一个反复进行的过程,不可能在几天内完成,需要不断地发现问题、解决问题。

数据是否过滤、是否修正,一般要求客户确认。

对于过滤数据,一般要求写入Excel文件中或者将过滤数据写入数据表中。

在ETL开发的初期,可以每天向业务主管部门发送过滤数据的邮件,促使他们尽快地修正错误,同时可以将其作为将来的验证依据。

跨境电商数据清洗需要注意的是不要将有用的数据过滤,对每个过滤规则都应认真进行验证,并要求客户确认。

(2)跨境电商数据清洗的原理

跨境电商数据清洗原理是指利用有关技术,如数理统计、数据挖掘或预定义的清理规则,将“脏数据”转化为满足数据质量要求的数据。

三、实验内容

业务背景:

要通过数据分析获得有用的结果,不仅依赖于算法,还依赖于数据的质量。

好的数据胜过复杂的模型,所以在进行数据分析之前,对采集的数据进行清洗尤为重要。

下面围绕数据清洗这个目的,从缺失数据、重复数据和错误数据3个方面出发,运用一些简单的统计学方法和Excel表格工具发现“脏数据”,并对其进行清洗。

具体操作流程:

(一)缺失数据的清洗

在数据采集的过程中,缺失数据常表示为空值或错误标识符(#DIV/0!

)。

为了保证数据的完整性,用户可以运用一些统计学方法查找缺失数据并对其进行清洗。

在查找缺失数据时,按Ctrl+G组合键打开Excel的定位功能,选择其中的错误单元格或空值单元格,就可以进一步查找数据表中的错误值和空值。

下面以一个样本统计量的值代替缺失值的方法为例进行说明,具体操作方法如下。

(1)按“Ctrl+A”组合键全选数据表单元格区域,再按“Ctrl+G”组合键,打开“定位”对话框,单击“定位条件”按钮,如图1所示。

图1打开“定位”对话框

(2)弹出“定位条件”对话框,单击“空值”单选按钮,如图2所示,然后单击“确定”按钮。

图2“定位条件”对话框

(3)此时即自动定位到表格中的空值单元格,如图3-13所示。

在实际操作中,如果样本较大,缺失数据较多,可以定位样本中的所有空值单元格,然后按“Ctrl+Enter”组合键在选中的空值单元格中一次性输入样本的平均值。

当缺失数据较少时,可以将缺失数据前后若干天数据的平均值作为代替数据。

图3显示的是9月下旬网站的销售情况,其中人均消费额为总销售额除以购买人数。

由于9月27日的总销售额缺失,相应的人均消费额无法计算,考虑到每天的人均消费额相对稳定,可以使用其他日期的人均消费额的平均值36.79元代替,进而计算得出该日的总销售额为55406元;

也可以简单地使用9月27日前后两天的总销售额的平均值作为9月27日的总销售额,得到总销售额为45251元,进而计算出人均消费额为30.05元。

图3定位空值单元格

(二)重复数据的清洗

1.查找重复数据

为了保证数据的一致性,需要对重复数据进行处理。

对于重复数据的查找,一般采用以下4种方法。

(1)条件格式法

利用Excel条件格式中的突出显示重复值功能,可以将重复数据及其所在单元格突出显示为不同的颜色,具体操作方法如下。

选中A列数据,在“开始”选项卡下的“样式”组中单击“条件格式”下拉按钮,选择“突出显示单元格规则”|“重复值”选项,如图4所示。

弹出“重复值”对话框,在“设置为”下拉列表框中选择“浅红填充色深红色文本”,如图5所示,然后单击“确定”按钮,即可标记所有重复的会员编号。

图4选择“重复值”选项

图5突出显示重复值

(2)高级筛选法

利用Excel的“高级筛选”功能可以快速筛选不重复的记录,具体操作方法如下。

选择任一数据单元格,在“数据”选项卡下的“排序和筛选”组中单击“高级”按钮,弹出“高级筛选”对话框,系统会自动选中所有数据区域,勾选“选择不重复的记录”复选框,如图6所示,然后单击“确定”按钮。

图6设置高级筛选

此时即可筛选出所有不重复的记录,重复记录被自动隐藏,筛选结果如图7所示。

(3)函数法

COUNTIF函数可以对指定区域中满足某个指定条件的单元格计数。

下面利用该函数对会员编号出现的次数进行统计,以识别重复数据。

具体操作方法为,在“会员编号”列的右侧插入列,在B2单元格中输入公式“=COUNTIF($A$2:

A2,A2)”,然后利用填充柄向下填充公式,即可得出相应的编号出现了几次,如图8所示。

图7筛选结果

图8识别重复数据

(4)数据透视表法

拖动相应的字段,利用数据透视表也可以统计出数据出现的次数,其中出现两次及两次以上的数据属于重复项,具体操作方法如下。

选择“插入”选项卡,在“表格”组中单击“数据透视表”按钮,如图9所示。

图9单击“数据透视表”按钮

弹出“创建数据透视表”对话框,单击“新工作表”单选按钮,如图10所示,然后单击“确定”按钮。

图10“创建数据透视表”对话框

此时,即可创建一个空的数据透视表。

在“数据透视表字段”列表窗中将“会员编号”字段分别拖入“行”和“值”区域,即可对会员编号进行计数,次数大于1的会员编号即为重复数据,如图11所示。

图11添加报表字段

对“计数项:

会员编号”列进行降序排序,查看重复的会员编号,如图12所示。

图12为计数项排序

2.删除重复数据

在完成重复数据的查找后,接下来要做的便是删除重复数据。

删除重复数据主要有以下3种方法。

(1)通过“删除重复值”功能删除重复数据

Excel提供了“删除重复值”功能,可以快速删除重复数据,具体操作方法如下。

选择“数据”选项卡,在“数据工具”组中单击“删除重复值”按钮,在弹出的“删除重复值”对话框中勾选包含重复值的列,如图13所示,然后单击“确定”按钮。

图13“删除重复值”对话框

此时将弹出信息提示对话框,显示有多少个重复值被删除,有多少个唯一值被保留,如图14所示。

图14重复值删除结果

(2)通过排序删除重复数据

在利用条件格式对重复数据进行识别的基础上,可以对含有重复数据的列排序,进而删除重复数据,具体操作方法如下。

采用前面介绍的方法,利用条件格式突出显示重复数据。

选择“数据”选项卡,在“排序和筛选”组中单击“筛选”按钮,即可在各字段显示筛选按钮,如图15所示。

图15显示“筛选”按钮

单击“会员编号”的筛选按钮,选择“按颜色排序”选项,在其子菜单中选择“按单元格颜色排序”,如图16所示。

图16设置“按单元格颜色排序”

此时所有重复数据显示在最上方,直接删除不需要的数据即可,排序结果如图77所示。

(3)通过筛选删除重复数据

在利用COUNTIF函数对重复数据进行识别的基础上,可以对重复项标记列进行筛选,筛选出数值不等于1的项并进行清除,具体操作方法如下。

图17查看排序结果

单击“重复标记”筛选按钮,选择“数字筛选”|“不等于”选项,如图18所示,然后单击“确定”按钮。

图18选择“不等于”选项

在弹出的“自定义自动筛选方式”对话框中将筛选条件设置为“不等于1”,如图19所示,然后单击“确定”按钮。

图19“自定义自动筛选方式”对话框

此时即可筛选出所有的重复数据,拖动鼠标即可查看所有数据,如图20所示。

图20查看筛选结果

按“Alt+;

”组合键,选中可见的单元格。

在选中的单元格中单击鼠标右键,在弹出的快捷菜单中选择“删除行”命令,如图21所示,即可删除重复数据。

单击“筛选”按钮,取消筛选状态。

图21删除重复数据

(三)错误数据的清洗

除了缺失数据和重复数据外,可能出现的数据不规范的情况还有很多,如错误数据等。

为了保证数据的准确性,需要对错误数据进行处理。

一般情况下,错误数据经常表现为以下两种情况。

1.输入的信息不符合要求

例如,在进行问卷调查时,多项选择题最多可选择3个选项,而答题者却选择了4个或4个以上的选项。

对于这种情况,可以使用COUNTIF函数,根据指定的条件利用IF函数判断其“真”(true)、“假”(false),然后根据逻辑计算的真假值返回相应的内容。

下面以客户满意度调查中的多项选择题为例,判断输入信息是否符合要求。

针对“题目1”共设置了A、B、C、D、E、F、G共7个选项,围绕这7个选项共有8条记录,这8条记录分别代表了8个不同客户对“题目1”的回答,而且第二条记录和第五条记录中有选择了3个以上的选项的记录。

在I2单元格中输入公式“=IF(COUNTIF(B2:

H2,"

<

>

0"

)>

3,"

错误"

,"

"

)”,并将公式填充到下方的单元格中,判断被调查者是否选择了3个以上的选项。

如果超过3个,则返回“错误”,如图22所示。

图22检查不符合要求的记录

2.手动输入错误

在使用0和1输入多选题信息时,若出现了0和1之外的数据,可以采用条件格式和OR函数来标记出错误数据。

如10和11明显是错误的数据。

下面使用条件格式标记错误的数据,具体操作方法如下。

选择B2:

H9单元格区域,在“开始”选项卡的“样式”组中单击“条件格式”下拉按钮,选择“突出显示单元格规则”|“其他规则”选项,如图23所示。

图23选择“其他规则”选项

弹出“新建格式规则”对话框,选择“使用公式确定要设置格式的单元格”选项,在下方输入公式“=OR(B2=1,B2=0)=FALSE”,单击“格式”按钮,将单元格格式设置为红底白字,如图24所示,然后单击“确定”按钮。

图24“新建格式规则”对话框

此时即可将输入错误的单元格标记出来,如图25所示。

图25标记输入错误的数据

四、练习

选择一组跨境电商店铺数据按上述步骤进行数据清洗。

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 小学教育 > 其它课程

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1