实训项目4跨境电商数据清洗13页文档格式.docx
《实训项目4跨境电商数据清洗13页文档格式.docx》由会员分享,可在线阅读,更多相关《实训项目4跨境电商数据清洗13页文档格式.docx(12页珍藏版)》请在冰豆网上搜索。
跨境电商数据清洗是一个反复进行的过程,不可能在几天内完成,需要不断地发现问题、解决问题。
数据是否过滤、是否修正,一般要求客户确认。
对于过滤数据,一般要求写入Excel文件中或者将过滤数据写入数据表中。
在ETL开发的初期,可以每天向业务主管部门发送过滤数据的邮件,促使他们尽快地修正错误,同时可以将其作为将来的验证依据。
跨境电商数据清洗需要注意的是不要将有用的数据过滤,对每个过滤规则都应认真进行验证,并要求客户确认。
(2)跨境电商数据清洗的原理
跨境电商数据清洗原理是指利用有关技术,如数理统计、数据挖掘或预定义的清理规则,将“脏数据”转化为满足数据质量要求的数据。
三、实验内容
业务背景:
要通过数据分析获得有用的结果,不仅依赖于算法,还依赖于数据的质量。
好的数据胜过复杂的模型,所以在进行数据分析之前,对采集的数据进行清洗尤为重要。
下面围绕数据清洗这个目的,从缺失数据、重复数据和错误数据3个方面出发,运用一些简单的统计学方法和Excel表格工具发现“脏数据”,并对其进行清洗。
具体操作流程:
(一)缺失数据的清洗
在数据采集的过程中,缺失数据常表示为空值或错误标识符(#DIV/0!
)。
为了保证数据的完整性,用户可以运用一些统计学方法查找缺失数据并对其进行清洗。
在查找缺失数据时,按Ctrl+G组合键打开Excel的定位功能,选择其中的错误单元格或空值单元格,就可以进一步查找数据表中的错误值和空值。
下面以一个样本统计量的值代替缺失值的方法为例进行说明,具体操作方法如下。
(1)按“Ctrl+A”组合键全选数据表单元格区域,再按“Ctrl+G”组合键,打开“定位”对话框,单击“定位条件”按钮,如图1所示。
图1打开“定位”对话框
(2)弹出“定位条件”对话框,单击“空值”单选按钮,如图2所示,然后单击“确定”按钮。
图2“定位条件”对话框
(3)此时即自动定位到表格中的空值单元格,如图3-13所示。
在实际操作中,如果样本较大,缺失数据较多,可以定位样本中的所有空值单元格,然后按“Ctrl+Enter”组合键在选中的空值单元格中一次性输入样本的平均值。
当缺失数据较少时,可以将缺失数据前后若干天数据的平均值作为代替数据。
图3显示的是9月下旬网站的销售情况,其中人均消费额为总销售额除以购买人数。
由于9月27日的总销售额缺失,相应的人均消费额无法计算,考虑到每天的人均消费额相对稳定,可以使用其他日期的人均消费额的平均值36.79元代替,进而计算得出该日的总销售额为55406元;
也可以简单地使用9月27日前后两天的总销售额的平均值作为9月27日的总销售额,得到总销售额为45251元,进而计算出人均消费额为30.05元。
图3定位空值单元格
(二)重复数据的清洗
1.查找重复数据
为了保证数据的一致性,需要对重复数据进行处理。
对于重复数据的查找,一般采用以下4种方法。
(1)条件格式法
利用Excel条件格式中的突出显示重复值功能,可以将重复数据及其所在单元格突出显示为不同的颜色,具体操作方法如下。
选中A列数据,在“开始”选项卡下的“样式”组中单击“条件格式”下拉按钮,选择“突出显示单元格规则”|“重复值”选项,如图4所示。
弹出“重复值”对话框,在“设置为”下拉列表框中选择“浅红填充色深红色文本”,如图5所示,然后单击“确定”按钮,即可标记所有重复的会员编号。
图4选择“重复值”选项
图5突出显示重复值
(2)高级筛选法
利用Excel的“高级筛选”功能可以快速筛选不重复的记录,具体操作方法如下。
选择任一数据单元格,在“数据”选项卡下的“排序和筛选”组中单击“高级”按钮,弹出“高级筛选”对话框,系统会自动选中所有数据区域,勾选“选择不重复的记录”复选框,如图6所示,然后单击“确定”按钮。
图6设置高级筛选
此时即可筛选出所有不重复的记录,重复记录被自动隐藏,筛选结果如图7所示。
(3)函数法
COUNTIF函数可以对指定区域中满足某个指定条件的单元格计数。
下面利用该函数对会员编号出现的次数进行统计,以识别重复数据。
具体操作方法为,在“会员编号”列的右侧插入列,在B2单元格中输入公式“=COUNTIF($A$2:
A2,A2)”,然后利用填充柄向下填充公式,即可得出相应的编号出现了几次,如图8所示。
图7筛选结果
图8识别重复数据
(4)数据透视表法
拖动相应的字段,利用数据透视表也可以统计出数据出现的次数,其中出现两次及两次以上的数据属于重复项,具体操作方法如下。
选择“插入”选项卡,在“表格”组中单击“数据透视表”按钮,如图9所示。
图9单击“数据透视表”按钮
弹出“创建数据透视表”对话框,单击“新工作表”单选按钮,如图10所示,然后单击“确定”按钮。
图10“创建数据透视表”对话框
此时,即可创建一个空的数据透视表。
在“数据透视表字段”列表窗中将“会员编号”字段分别拖入“行”和“值”区域,即可对会员编号进行计数,次数大于1的会员编号即为重复数据,如图11所示。
图11添加报表字段
对“计数项:
会员编号”列进行降序排序,查看重复的会员编号,如图12所示。
图12为计数项排序
2.删除重复数据
在完成重复数据的查找后,接下来要做的便是删除重复数据。
删除重复数据主要有以下3种方法。
(1)通过“删除重复值”功能删除重复数据
Excel提供了“删除重复值”功能,可以快速删除重复数据,具体操作方法如下。
选择“数据”选项卡,在“数据工具”组中单击“删除重复值”按钮,在弹出的“删除重复值”对话框中勾选包含重复值的列,如图13所示,然后单击“确定”按钮。
图13“删除重复值”对话框
此时将弹出信息提示对话框,显示有多少个重复值被删除,有多少个唯一值被保留,如图14所示。
图14重复值删除结果
(2)通过排序删除重复数据
在利用条件格式对重复数据进行识别的基础上,可以对含有重复数据的列排序,进而删除重复数据,具体操作方法如下。
采用前面介绍的方法,利用条件格式突出显示重复数据。
选择“数据”选项卡,在“排序和筛选”组中单击“筛选”按钮,即可在各字段显示筛选按钮,如图15所示。
图15显示“筛选”按钮
单击“会员编号”的筛选按钮,选择“按颜色排序”选项,在其子菜单中选择“按单元格颜色排序”,如图16所示。
图16设置“按单元格颜色排序”
此时所有重复数据显示在最上方,直接删除不需要的数据即可,排序结果如图77所示。
(3)通过筛选删除重复数据
在利用COUNTIF函数对重复数据进行识别的基础上,可以对重复项标记列进行筛选,筛选出数值不等于1的项并进行清除,具体操作方法如下。
图17查看排序结果
单击“重复标记”筛选按钮,选择“数字筛选”|“不等于”选项,如图18所示,然后单击“确定”按钮。
图18选择“不等于”选项
在弹出的“自定义自动筛选方式”对话框中将筛选条件设置为“不等于1”,如图19所示,然后单击“确定”按钮。
图19“自定义自动筛选方式”对话框
此时即可筛选出所有的重复数据,拖动鼠标即可查看所有数据,如图20所示。
图20查看筛选结果
按“Alt+;
”组合键,选中可见的单元格。
在选中的单元格中单击鼠标右键,在弹出的快捷菜单中选择“删除行”命令,如图21所示,即可删除重复数据。
单击“筛选”按钮,取消筛选状态。
图21删除重复数据
(三)错误数据的清洗
除了缺失数据和重复数据外,可能出现的数据不规范的情况还有很多,如错误数据等。
为了保证数据的准确性,需要对错误数据进行处理。
一般情况下,错误数据经常表现为以下两种情况。
1.输入的信息不符合要求
例如,在进行问卷调查时,多项选择题最多可选择3个选项,而答题者却选择了4个或4个以上的选项。
对于这种情况,可以使用COUNTIF函数,根据指定的条件利用IF函数判断其“真”(true)、“假”(false),然后根据逻辑计算的真假值返回相应的内容。
下面以客户满意度调查中的多项选择题为例,判断输入信息是否符合要求。
针对“题目1”共设置了A、B、C、D、E、F、G共7个选项,围绕这7个选项共有8条记录,这8条记录分别代表了8个不同客户对“题目1”的回答,而且第二条记录和第五条记录中有选择了3个以上的选项的记录。
在I2单元格中输入公式“=IF(COUNTIF(B2:
H2,"
<
>
0"
)>
3,"
错误"
,"
"
)”,并将公式填充到下方的单元格中,判断被调查者是否选择了3个以上的选项。
如果超过3个,则返回“错误”,如图22所示。
图22检查不符合要求的记录
2.手动输入错误
在使用0和1输入多选题信息时,若出现了0和1之外的数据,可以采用条件格式和OR函数来标记出错误数据。
如10和11明显是错误的数据。
下面使用条件格式标记错误的数据,具体操作方法如下。
选择B2:
H9单元格区域,在“开始”选项卡的“样式”组中单击“条件格式”下拉按钮,选择“突出显示单元格规则”|“其他规则”选项,如图23所示。
图23选择“其他规则”选项
弹出“新建格式规则”对话框,选择“使用公式确定要设置格式的单元格”选项,在下方输入公式“=OR(B2=1,B2=0)=FALSE”,单击“格式”按钮,将单元格格式设置为红底白字,如图24所示,然后单击“确定”按钮。
图24“新建格式规则”对话框
此时即可将输入错误的单元格标记出来,如图25所示。
图25标记输入错误的数据
四、练习
选择一组跨境电商店铺数据按上述步骤进行数据清洗。