数据元数据集.docx
《数据元数据集.docx》由会员分享,可在线阅读,更多相关《数据元数据集.docx(11页珍藏版)》请在冰豆网上搜索。
数据元数据集
第1章数据元
1.1数据元定义
数据元可定义为通过标识、定义、表示以及允许值等一系列属性描述的数据
单元,在特定的语义环境中被认为是不可再分的最小数据单元。
一般来说由对象类词、特性类词和表示三部分组成。
(1)对象类词:
是指人们希望研究、搜集和存储其相关数据的事物,如:
人、家庭、医疗机构、观察与干预等。
(2)特性类词:
是某个对象的一个特征。
例如,人这个对象类可以具有很
多特征,如性别、出生日期、身高、职业或患病情况等。
(3)表示是值域、数据类型的组合,必要时也包括度量单位或字符集。
它
所表达的是数据元概念的数据类型及可能的取值范围。
表示类词可以是一个
编码,如国际疾病分类(ICD-10),也可能是一个取值范围,如身高的取值。
对象往往有多个特性,对象与其任何一个有意义的特性的结合就组成一个数
据元概念。
例如,人这个“对象”可以有性别、身高、出生日期等多个“特性”,将它与其中的某一个特性结合在一起就组成一个“数据元概念”,如人—性别、人—身高和人—出生日期等都是数据元概念的例子。
数据元是数据元概念与值域的结合。
即一个特定的数据元概念与一个特定的
值域结合创建一个数据元。
例如在儿童营养监测中,定义的一个数据元概念“儿
童身高”,与身高的表示值域结合,构成数据元“儿童身高的测量值”;而与儿童
身高的平均水平值域结合,则构成“儿童身高的平均值”这个数据元。
显然,这是两个不同的数据元。
数据元概念与数据元之间存在一对多的关系,即一个数据元概念与不同的表示组合后可以生成不同的数据元。
数据元需要并且只能有一个表
。
当数据元的概念模型相同而表示不同时就是两个不同的数据元。
图1给出了
数据元的结构模型。
1.2数据元属性描述规则
1.2.1必选描述符
下列数据元属性描述符是必选的:
──名称
──定义
──约束
──数据类型
8.3.1.2.2名称:
赋予数据元属性标记。
名称应当是唯一的,并且应当以字母数字
式的字符串形式表示。
8.3.1.2.3定义:
数据元属性的描述,可使一种数据元属性与其他数据元属性清晰地
中国公共卫生信息分类与基本数据集标准
379
区别开来。
定义以字母数字式的字符串形式表示。
8.3.1.2.4约束:
显示一个数据元属性是始终还是有时出现(即含有的值)的描述
符。
该描述符可以有下列含义:
──必选:
该数据元属性必须出现。
──条件选:
如果规定的条件存在的话,那么该数据元属性就应当出现。
──可选:
该数据元属性可以出现,也可以不出现。
条件:
数据元属性应该出现的环境。
8.3.1.2.5最多实例数:
在一个数据元规范中,规定数据元属性可以拥有的最多实
例数目的描述符。
注:
描述符“最多实例数”可以实现为属性的重复出现的次数,或实现为属性
出现一次但具有多个赋值(多值属性)。
后一种情形需要句法约定,以使属性值
相互区别。
实现示例1:
某种数据管理功能确定了这样的属性:
在一个数据元规范中“同义名称”可以
出现3次。
数据元的3个“同义名称”被命名为“产品代码”,表达如下:
名称产品代码
同义名称1:
物品号
同义名称2:
物料代码
同义名称3:
产品索引号
实现示例2:
某种数据管理功能确定了这样的属性:
在一个数据元规范中“分类模式”,可
以只出现1次但可以拥有2个值。
数据元“元件体长”的两个“分类模式”,可以表
达如下:
名称体长
分类模式:
IEC元件种类:
元件
IEC数据元类型种类:
长度值(T03)
8.3.1.2.6数据类型:
为表达属性值而规定的特定值集合的描述符。
属性值的数据
类型示例有:
“字符”、“序号”、“整数”、“字符串”。
8.3.1.2.7最大长度:
存储单元最大数目的规格以表达在数据类型中所规定的特定值。
示例:
当“数据类型”实例被规定为“整数”并且“最大长度”描述符实例值是:
“3”时,则表示属性值可以包含最多3位整数。
8.3.1.2.8备注:
与属性应用有关的注释。
1.3数据元命名规则
数据元的中英文名称的命名应遵循以下三个方面的规则。
1.3.1唯一性规则
规则1:
在一定相关环境下数据元名称应该唯一,名称中一般包括对象类词、
特性词、表示词和限定词。
1.3.2语义规则
规则2:
对象类词表示数据元所属的事物或概念,它表示某一相关环境下一
个活动或对象,它是数据元中占支配地位的部分。
规则3:
数据元名称中应有一个且仅有一个对象类词。
规则4:
特性词是表示数据元的对象类的显著的、有区别的特征。
规则5:
数据元名称中应有一个且仅有一个特性词。
规则6:
表示词是数据元名称中描述数据元表示形成的一个成分。
它描述了
数据元有效值集合的格式。
规则7:
数据元名称中应有一个且仅有一个表示词。
规则8:
当需要描述一个数据元并使其在特定的相关环境中唯一时,可以使
用限定词对对象类词、特性词或表示词进行限定。
限定词是可选的。
中国公共卫生信息分类与基本数据集标准
27
1.3.3语法规则
规则9:
对象类词应处于名称的第一(最左)位置。
规则10:
特性词应处于第二位置。
规则11:
表示词应处于最后位置。
规则12:
限定词可以附加到对象类词、特性词和表示词上。
限定词应位于被
限定成分的前面,限定名称的顺序的不同不能用于区别不同的数据元。
规则13:
当表示词与特性词有重复或部分重复时,可以从名称中将冗余词删
除掉。
1.3.4数据元英文名称的词法规则
规则14:
名词使用单数形式,动词使用现在时;
规则15:
名称的各个成分之间用空格分隔,不允许使用特殊字符。
规则16:
允许使用缩写词、首字母缩略词和大写首字母。
1.4数据元的标识
为了区分不同的数据元,用一组相关属性对其进行规范性、唯一性标识。
这
些属性如表4中(标识类属性)给出的内容:
——名称(中文名称、英文名称、中文全拼);
——标识符;
——注册机构;
——版本;
——相关环境;
——同义名称。
1.4.1名称、同义名称和相关环境
在注册机构中注册的一个数据元至少应当有一个名称,根据该数据元的使用
的相关环境,可以分配多个名称。
每个名称在某个特定的相关环境中有着特殊的
中国公共卫生信息分类与基本数据集标准
28
作用。
为了便于数据管理,可建立严格结构化的名称;使用者可以规定首选名称;
在特定的软件环境(如:
一个特定程序语言或数据库管理系统)中可以产生简称。
1.4.2标识符、注册机构和版本
在注册机构中注册的一个数据元必须有一个标识符,可由数据元的注册机构
标识符、提交机构提供的内部标识符和版本号组合而成。
注册机构标识符:
公共卫生数据元注册机构需要向卫生数据元标准化主
管部门申请注册机构的标识符。
建议采用“PH”方式进行分配,“PH”代表公共卫
生数据元。
内部标识符:
由公共卫生数据元提交机构自行分配,每个数据元应有一
个唯一的内部标识符。
本研究内部标识符规定按数据元提交的组别+数据集+流水
号。
版本标识符:
公共卫生数据元版本标识符的编写格式以及版本控制须遵
循以下原则:
公共卫生数据元的版本是由阿拉伯数字字符和小数点字符组成的字符串;
公共卫生数据元的版本至少包含两个阿拉伯数字字符和一个小数点字符;
公共卫生数据元的版本字符串应为“m…m.n…n”的形式,其中“m”、“n”在数
学上应是具有意义的正整数;
公共卫生数据元版本字符串中,“m…m”表示主版本号,“n…n”表示次版本号;
当一个公共卫生数据元的某些属性发生了变化时,其版本需要进行相应的改
变。
对于应在何时对数据元(称为当前数据元)进行更新,以及更新后的数据元
(称为后续数据元)的版本等属性,应由数据元注册机构以及评审小组决定。
标识符举例说明:
在1.0版本的公共卫生数据元目录中,已正式注册500个
数据元,之后某部门又提交:
“疾病名称”数据元,提交机构分配其内部标识符为
0501011,则该数据元的完整的唯一标识符为PH-0501011-1.0。
1.5数据元著录
数据元著录分为三个主要环节:
术语条目库建立、数据元生成和数据元属性著
录。
按照数据录入和产生的完整顺序,三个环节的先后顺序如下图所示.在具体
操作中,用户可直接进入数据元生成环节进行操作,如有待录入的数据元也可直
接进行数据元属性著录。
1.5.1术语条目库建立
目的在于为用户在进行数据元生成的时候,提供备选的术语条目。
数据元的
组成结构由下图所示:
如上图所示,数据元由对象类词术语、特性术语、表示术语三个术语结构组
成。
由于在形成某一个数据元之前,术语条目可能成为数据元结构中的任何一部
分,所以我们只需要建立一个术语条目库作为三个术语结构的公用备选库,在数
据元生成环节中的术语条目著录时,为用户快速提供备选的术语条目。
术语条目库的建立可以通过导入规定格式的EXCEL文件或者手工加入进
行,另外,凡是用户在著录生成新的数据元的过程中出现了术语条目库中没有的
词汇来充当术语结构,那么在生成新数据元的同时,充当术语角色的新词汇将被
自动添加入术语条目库。
数据元生成
数据元生成的首先环节是分别在对象类术语、特性术语和表示术语三个输入
框中输入要生成数据元的结构术语。
在用户输入时,上方的列表会自动过滤出对输入内容进行模糊查询的结果,
用户可以直接选择某个术语条目作为相应的结构术语。
这样不仅可以提高用户输
入的效率,而且可以让用户选择意义相近的现有术语条目,一定程度上起到了标
准化的效果。
如果用户录入作为术语的词汇在原术语条目库中没有,那么新词汇在数据元
生成时将被作为新的术语条目添加入术语条目库。
1.5.2数据元属性著录
数据元基本属性的著录设计按照数据元基本属性模型(见下图)进行,其中
规定属性与数据元之间的数量对应关系(如可选属性最小出现次数是0、必选属
性最小出现次数是1,而可重复出现属性的最大出现次数是N),以及可选属性
之间的绑定关系。
可选属性中,对于有依存绑定关系的在模型图中以在同一个方框内表示,则
在录入时进行数据校验,例如,“相关数据参数”和“数据类型”两个属性在基本属
性模型图中是在一个方框内,代表有依赖关系,则要求:
在两者有一个进行了录
入的话,它们两者就都应当进行录入,否则系统将提醒。
有些基本属性可以在一个数据元中多次出现(上图中最大出现次数为N的),
这些属性的录入框允许重复调用出现。
1.6数据元的查询
以查询的对象来看,用户可以选择针对数据元、数据元概念、对象类词术语、
特性术语、表示术语来进行精确或模糊查询,以及多个查询条件组合的查询。
1.6.1数据元审核与注册
普通用户进行完数据元的著录之后进行网上提交,管理员通过修改管理类属
性中的“注册状态”属性来对这些数据元进行审核与注册,数据元的注册状态包括
以下四种:
已登录:
已注册的数据元,包括所有必选的属性值,但其内容可能同
已登录:
已注册的数据元,包括所有必选的属性值,但其内容可能同
GB/T18391其他各个部分规定的质量要求不一样。
已审核:
已登录的数据元,应同GB/T18391其他各个部分规定的质量要求一
致。
已标准化:
已审核的数据元,由注册机构确认,优先用于数据交换和新的或
现时的应用领域。
“标准化”的数据元在注册处内可能是唯一的,或在相似的
数据元中是首选的。
已失效:
已登录、已审核或已标准化的数据元,经注册机构判定为“已停止
使用”后,不再使用。