ImageVerifierCode 换一换
格式:DOCX , 页数:28 ,大小:851.62KB ,
资源ID:22041753      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/22041753.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(Clementine2变量管理Word文件下载.docx)为本站会员(b****7)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

Clementine2变量管理Word文件下载.docx

1、 这里,首先,添加变量值标签以规范是否无偿献血的取值,指定用户缺失值;其次,说明家庭人均年收入的合理取值范围。为此,应分别选择是否无偿献血和家庭人均年收入变量,鼠标选择图3-2中的缺失(Missing)列。其中有三个选项。 开(*)On(*):表示允许相应变量取用户缺失值,不进行修正,但用户缺失值并 不等同于正常值。 关(Off): 表示不允许相应变量取用户缺失值。指定(Specify):定义变量值取值范围、用户缺失值等信息。这里,选择该项,窗口 如图3-3和图3-4所示。 图3-3 集(Set)类型的指定(Specify)窗口 图3-4 范围(Range)类型的指定(Specify) 窗口

2、不同类型变量的指定(Specify)窗口略有差别,但含义大体一致。 类型(Type)选项:显示当前变量的类型和存储类型。 值(Values)选项:指定决定变量取值范围的方法。其中,读取数据(Read from data)表示取决于所读的外部数据;传递(Pass)表示忽略所读的外部数据;指定值和标签(Specify values and labels)表示人为指定变量取值和变量值标签。用户可根据当前变量的实际意义,手工指定其合理的取值,并在标签(Label)框中输入关于变量值含义的简短说明文字。 这里,为指示是否无偿献血的合理取值,分别在Yes和No行对应的标签(Labels)列中输入变量值标签

3、“无偿献血”、“未无偿献血”;家庭人均年收入的取值范围不能直接由外部数据决定,否则Clementine将视999999(用户缺失值)为正常值。可手工输入合理的取值区间为7333.0至74460.0。 检查值(Check values)选项:指定对变量值的修正方法,该功能同图3-2中的 检查(Check)列。 定义空白(Define blanks)选项:选中该选项,表示视下列值为空白。其中,缺 失值( Missing values )框:在此处输入的离散值都当空白处理;范围到 ( Range to)框:在此处输入的连续区间中的值都当作空白处理;无效值(Null) 和空白(White space)

4、:系统缺失值$null$或空格都当作空白处理。 (type节点) 需要注意的是:Clementine不对空白进行替补处理,因此定义空白(Define blanks)的目的仅是将那些无需修正和替代的用户缺失值与正常 值区分开,以便于后续建模。所以,当选择了定义空白(Define blanks)并返回图3-2窗口后,相应变量的缺失(Missing)列上将自动显示*,表示允许相应变量取用户缺失值。 这里,无偿献血中的l和0虽然是不合理取值,但自动修正是无意义的,因此在定义空白(Define blanks)中说明;家庭人均年收入中的999999和$null$值需要修正和替补,所以不应在定义空白(Def

5、ine blanks)中说明,仅视999999为超出取值范围的不合理取值。返回图3-2窗口后,无偿献血的缺失(Missing)列上显示*,家庭人均年收入的缺失(Missing)列上没有显示。3.1.2 变量取值有效性检查和修正 当指定了变量值取值范围后,通常还需利用图3-2中的检查(Check)列,对超出取值范围的不合理数据或系统缺失值进行修正。例如,需对家庭人均年收入中的999999和$null$值进行修正和替补,如图3-5所示。 图3-5 类型(Type)节点中的检查(Check)处理 通常的修正处理方式如下。 无(None):不进行修正。 无效(Nullify):用系统缺失值$null$

6、替代。 强制(Coerce):用一指定值替代。Clementine默认,二分(Flag)型变量用False 对应的值替代;多分类型(Set)变量用第一个变量值替代;数值型变量,大于上限的用 上限值替代,小于下限的用下限值替代,其余值用(最大值+最小值)/2替代。 这里,对家庭人均年收入中的系统缺失值$null$和999999进行了替换和修正处理。 对于是否无偿献血中的不合理取值(1或0),根据替换规则将全部替换为No,显然不符合实际要求,利用类型(Type)节点无法处理。其具体处理见3.3节。 丢弃(Discard):剔除相应样本数据。 警告(Warm):给出警告信息。 中止(Abort):终

7、止流执行。3.1.3 变量角色的说明 所谓变量角色是指变量在模型建立时的角色。角色不同,变量的作用也不同。 通常建模中,有的变量是用于解释其他变量的,被称为解释变量或自变量。Clementine形象地称之为输入变量。有的变量则需被其他变量所解释,被称为被解释变量或因变量,Clementine称之为输出变量。例如,在分析客户收入对其消费的影响时,收入就是输入变量,消费就是输出变量。变量角色的说明也称变量方向的说明,可通过图3-2中的方向(Direction)列指定,如图3-6所示。 图3-6 类型(Type)节点中的方向(Direction)说明 Clementine将变量角色进行了拓展。 输入

8、(In):变量将作为输入变量。 输出(Out):变量将作为输出变量。 两者(Both):某些模型中,有的变量既可作为输入角色,也可作为输出角色。例如, 在根据客户的收入和消费数据,将客户划分成不同客户群的分析中,收入和消费既 是输入变量也是输出变量,担当着两者(Both)角色。 分区(Partition):是数据挖掘中的特有角色,用于模型建立过程中样本子集的分割。 作为样本集分割角色的变量应是一个多分类型变量,且只能有两个或三个变量值。其 中,第一个变量值作为训练样本集标记,第二个作为检验样本集标记;第三个作为诊 断样本集标记。关于样本集分割将在3.6节中讲解。如果某变量不参与数据建模,则可指

9、定它为无(None)角色。Typeless 类型变量自动默认为无(None)角色。 这里,为分析学生是否参加某次社会公益活动受哪些因素的影响,指定学生的编号为无(None)角色,是否参与为输出变量,其他变量为输入变量。 3.2 变量值的重新计算 通过变量说明和浏览,会发现变量取值中可能存在的问题。例如,学生参加某次社会公益活动的数据中,在校综合评价指数本身很难直观反映学生的水平,因为不知道该变量取值的理论上限;再如,数据中很有可能出现空白数据,但Clementine的类型(Type)节点不对空白进行修正,这在一定程度上会影响分析,等等。因此,对变量值的重新计算是必要的,应通过字段选项(Fiel

10、d Ops)卡中的填充(Filler)节点实现。 变最值重新计算的核心是描述计算方法。通常需利用Clementine的CLEM表达式表述计算规则。3.2.1 CLEM表达式 CLEM(Clementine Language for Expression Manipulation)是Clementine专门用于表述运算操作的语言。CLEM所描述的算术表达式是由常量、变量、运算符、函数等组成的式子。 常量:运算过程中值不发生变化的量。不同类型常量的具体表现形式不同,如整 型(Integer)或实型(Real)常量表现为具体的数字,如150、265.87等;字符 串型( String)常量表现为具体

11、的字符,如“Beijing”等,应用双引号括起来。 变量:运算过程中其值可以发生变化的量,用于反映事物的某个特征。 运算符:包括算术运算符和逻辑运算符。 算术运算符有:+(加)、一(减)、*(乘)、/(除)、*(乘方)、div(整除)和rem(取余数)。另外,还有专用于字符串的操作符号(大于)、=(大于等于)、(小于)、=(小于等于)、=(等于)、/=(不等于)、and(并且)、or(或者)、not()(否)。 函数:是Clementine提供的实现某个特定计算功能的程序段,应通过函数名(参 数)的形式引用它们。 函数包括普通函数和专业函数。普通函数从功能角度可划分为算术函数和三角函数、随机函

12、数、字符串函数、类型转换函数和日期时间函数等;专业函数主要用于统计分析计算和缺失值的处理等。专业函数通常以开头,且函数名均为大写字母。专业函数在Clementine中有很重要的作用。 表3-1给出了各种常用函数的形式、结果类型和功能说明。日期时间函数较多,不在此一一列出,可参见Clementine帮助手册。 表3-1 (a)常用算术函数和三角函数函数结果类型功能说明abs(NUM)Number返回NUM的绝对值,计算结果与NUM同类型exp(NUM)Real返回e的NUM次幂,这里e是自然对数底intof(NUM)Integer将NUM截尾成一整数,返回与NUM相同符号的最大整数 续表frac

13、of(NUM)返回NUM的小数部分,即NUMintof(NUM)loge(NUM)返回NUM的自然对数(底为e),NUM不能为0或负数Loge10(NUM)返回NUM的对数(底为10),NUM不能为0或负数negate(NUM)返回NUM的相反数,计算结果与NUM同类型round(NUM)将NUM向上取整。若NUM为正则等于intof(NUM+0.5)否则为intof(NUM0.5)sign(NUM)返回NUM的符号。若NUM为整数,则负、零和正,对应的返回值依次为1、0、1。若NUM为实数,则依次返回1.0、0.0、1.0sqrt(NUM)返回NUM的平方根,NUM为正数sin(NUM)返回

14、正弦值cos(NUM)返回余弦值tan(NUM)返回正切值undefAny返回$null$值pi返回的实数估计值表3-1 (b)常用随机函数oneof(LIST)返回从LIST中随机选取的一个数据项。LIST的格式为ITEM1,ITEM2.ITEM_NRandom(NUM)随机生成(0,NUM)之间的随机数,随机数类型取决于NUM的类型 表3-1 (c)常用字符串函数allbutfirst(N,STRING)String返回一个字符串,它是STRING的前N个字符被删除后的字符串allbutlast(N,STRING)返回一个字符串,它是STRING的后N个字符被删除后的字符串isstarts

15、tring(SUBSTRING,STRING)若STRING以SUBSTRING开始,则返回1;否则返回0isendstring(SUBSTRING,STRING)若STRING以SUBSTRING结尾,则返回SUBSTRING在STRING中的下标,否则返回0ismidstring(SUBSTRING,STRING)若SUBSTRING是STRING的字符串,但不是从第一个字符开始或以最后一个字符结束,则返回子串开始处的下标,否则返回0alphabefore(STRING1,STRING2)Boolean若STRING1先于STRING2,则返回真;issubstring(SUBSTRING

16、,STRING)从第N个字符开始查找STRING中等于SUBSTRING的子串,若找到则返回匹配开始的下标;否则返回0。若N没有给定,则默认N为1续表last(STRING)返回STRING中最后一个字符length(STRING)integer返回字符串STRING的长度lowertoupper(STRING)将其所有小写字母转化为相应的大写字母uppertolower(STRING)将其所有大写字母转化为相应的小写字母stripchar(CHAR,STRING)从STRING中删除字符CHARsubstring(N,LEN,STRING)返回STRING中开始于下标N,长度为LEN的子串i

17、salphacode(CHAR)若CHAR的字符编码为字母则返回真;isnumbercode(CHAR)若CHAR的字符编码为数字则返回真;islowercode(CHAR)若CHAR为小写字母则返回真;isuppercode(CHAR)若CHAR为大写字母则返回真;表3-1(d)常用类型转换函数to_integer(ITEM)将指定变量转换为整型数to_real(ITEM)将指定变量转换为实型数to_string(ITEM)将指定变量转换为字符串型to_time(ITEM)Time将指定变量转换为时间型to_date(ITEM)Date将指定变量转换为日期型to_timestamp(ITEM

18、)Timestamp将指定变量转换为时间戳型表3-1(e)常用专业函数MEAN(FIELD)返回第一个样本到当前样本中变量FIELD的均值MEAN(FIELD,EXPR)返回包括当前样本在内的前EXPR个样本中变量FIELD的均值DIFF1(FIELD)返回变量FIELD的一阶差分值DIFF2(FIELD)返回变量FIELD一阶差分值的一阶差分值MAX(FIELD)返回第一个样本到当前样本中变量FIELD的最大值MAX(FIELD,EXPR)返回包括当前样本在内的前EXPR个样本中变量FIELD的最大值MIN(FIELD)返回第一个样本到当前样本中变量FIELD的最小值MIN(FIELD,EX

19、PR)返回包括当前样本在内的前EXPR个样本中变量FIELD的最小值SDEV(FIELD)返回第一个样本到当前样本中变量FIELD的标准差SDEV(FIELD,EXPR)返回包括当前样本在内的前EXPR个样本中变量FIELD的标准差SINCE(EXPR)返回从上一次表达式EXPR为真的样本到当前样本(不包括当前样本)之间相隔的样本数SUM(FIELD)返回第一个样本到当前样本中变量FIELD的总和SUN(FIELD,EXPR)返回包括当前样本在内的前EXPR个样本中变量FIELD的总和INDEX返回当前样本序号FIELD代指当前节点中的任一变量TODAY返回当前机器日期BLANK(FIELD)

20、若当前样本在变量FIELD上取空白,则返回真;NULL(FIELD)若当前样本在变量FIELD上取系统缺失值$null$,则返回真; 需要说明的是,算术表达式中的常量、变量和函数的存储类型应一致;计 算结果为布尔型(Boolean)的函数,其函数值不能保存到变量中,因为 Clementine变量的存储类型中没有Boolean型的定义,这些函数仅用于条 件判断。3.2.2 变量值重新计算示例 这里,仍以学生参加某次社会公益活动的数据(文件名为Students.xls)为例,讲解变量值重新计算的具体操作方法。计算目标是对在校综合评价指数进行标准化处理,以使其能够直观反映学生在校综合水平。计算方法为

21、极差法,即(在校综合评价指数一在校综合评价指数的最小值)/(在校综合评价指数的最大值一在校综合评价指数的最小值)100%。 首先,选择字段选项(Field Ops)卡中的填充(Filler)节点并将其与3.1节的类型(Type)节点相连,鼠标右击填充(Filler),选择弹出菜单中的编辑(Edit)选项,所显示的参数设置窗口如图3-7所示。 图3-7 填充(Filler)节点的参数设置窗口 具体参数设置如下。 输入字段(Fill in fields)框:指定一个或多个需重新计算的变量名,可以手工输 入也可以按右边的钮进行选择。这里,选择的变量是在校综合评价指数。 替换为(Replace wit

22、h)框:指定重新计算的计算方法,可以手工输入CLEM算术表 达式,也可按右边计算器按钮借助Clementine的CLEM输入面板输入,如图3-8所示。 图3-8 Clementine的CLEM输入面板 面板左边列出了所有CLEM函数,中间是运算符,右边是所有变量的相关信息。用户可通过鼠标进行选择输入,还可按检查(Check)钮对所输入的算术表达式的正确性进行检查。这里,输入本例的计算方法,其中在校综合评价的最大值和最小值已通过类型(Type)节点得知了。 替换(Replace)选项:提供了如下几种重新计算的条件。 根据以下条件(Based on condition)表示只对满足一定条件样本的变

23、量值进行 重新计算,条件应在条件(Condition)框中输入。例如,BLANK(FIELDS),表 示的条件是如果节点中任一变量的变量值为空白,则进行重新计算; 始终(Always)表示所有样本都重新计算; 空值(Blank values)表示用替换为(Replace with)框的计算结果替代变量中 的空白; 无效值(Null values)表示用替换为(Replace with)框的计算结果替代变量中 的系统缺失值$null$; 空值与无效值(Blank and null values)表示用替换为(Replace with)框的计 算结果替代变量中的空白和系统缺失值$null$。 可通

24、过输出(Output)选项卡中的表(Table)节点浏览重新计算以后的数据,可以看到在校综合评价指数均调整到0100之间,变量值的含义更直观了。 3.3 变量类别值的调整 在实际数据分析中,分类型变量的取值有时也需要调整。 例如,为大致判断人的不同性格,可设计一系列问题和备选答案,并给各个备选答案计以不同的分值。被判断者需要首先回答问题,然后计算自己的总得分,并根据总得分大致判断自己是属于哪种性格。这样的调查极为常见,其中的关键是问题的设计。如果现只有三个问题分别是:你遇到陌生人,会“自来熟”吗?你经常在公开场合发表自己的意见吗?你见到不熟悉的异性会经常脸红吗?备选答案为:经常、偶尔、从不,分

25、别计1、2、3分。同时规定总分达9分的为特别开朗型,总分为3的为特别内向型,39分之间的为普通型。可以看到,这里第3题是与前两题提问方向相反的题,称为反向计分题。反向计分题的答案数据应首先进行调整,否则必然影响后续的分值计算和判断。因此,这里需要将第3题原来的1分调整为3分,将原来的3分调整为1分,2分保持不变。再如,仍是学生参加某次社会公益活动的数据,是否无偿献血取值不规范,取值1和0应分别调整为Yes和No。对于上述问题,如果用3.2节的填充(Filler)节点做变量值重新计算,不仅很烦琐,更重要的是无法实现反向计分题的重新计分。解决方法是利用变量类别值调整功能,通过字段选项(Field Ops)卡中的重新分类( Reclassify)节点实现。 这里,将围绕调整无偿献血变量值的问题,讨论其具体操作。首先,选择字段选项(Field Ops)卡中的重新分类(Reclassify)节点并将其连接到数据流的适当位置上,鼠标右击,选择弹出菜单中的编辑(Edit)选项,所显示的参数设置窗口如图3-9所示。 图3-9 重新分类(Reclassify)的参数设置窗口具体参数设置如下。 模式(Mode)选项:单个(Single)表示

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1