数据元的规范与标准化框架.docx

上传人:b****6 文档编号:3077659 上传时间:2022-11-17 格式:DOCX 页数:10 大小:161.08KB
下载 相关 举报
数据元的规范与标准化框架.docx_第1页
第1页 / 共10页
数据元的规范与标准化框架.docx_第2页
第2页 / 共10页
数据元的规范与标准化框架.docx_第3页
第3页 / 共10页
数据元的规范与标准化框架.docx_第4页
第4页 / 共10页
数据元的规范与标准化框架.docx_第5页
第5页 / 共10页
点击查看更多>>
下载资源
资源描述

数据元的规范与标准化框架.docx

《数据元的规范与标准化框架.docx》由会员分享,可在线阅读,更多相关《数据元的规范与标准化框架.docx(10页珍藏版)》请在冰豆网上搜索。

数据元的规范与标准化框架.docx

数据元的规范与标准化框架

数据元的规范与标准化框架

数据表示和管理的基本概念

1.数据元

数据元是称之为数据的一个广义概念的特殊成员。

总而言之,数据是事实、想法或命令的一种表示数据被收集、组织、记录、处理和存放在一个可检索的表中。

数据还必须适用于以人工或自动方式进行交换、解释及加工处理。

有许多结构用于数据组织与管理,如数据合成、实体、文件、对象类、对象、记录、关联、关系、行、段、主体域、表以及元组。

它们与数据元并不具有相似性,但可以包括或通过一些数据库实现或逻辑建模来等同于数据元的支持。

字节和位也是数据的构件,尽管它们被用于电子媒体中数据元的注册,但并不等同于数据元。

在数据库中,数据元可以作为信息组(符号组、域)或字符列来处理。

在Chen的ER数据模型中,它是一个属性(见图A.5)。

在某特定的相关环境中被视为不可分割时,一个数据元则被作为一个单独的数据单位在自然界中,它是数据的单位,表示关于对象类的单独事实。

(如:

一个被赋值“M”和“S”的字符码表示了“雇员”这一对象类的婚姻状态的属性)。

在其使用范围内,它不可能被分解为更多且具有有用含义的基本信息组。

因而,数据元可被定义为在用户论述领域内是与用户相关的。

数据元是自然界中对象类特性以电子或书面形式的表示。

1.1表示

一个特性可由能够被人们解释的某一符号集来体现。

一个单独的特性可由几个交替的数据元甚至数据元组(通常称之为数据合成,有时也称之为数据元集或数据元链)来表示。

这样,一个特性可以由数据元组构成的数据合成或一个单独的数据元表征。

1.2常用法

所有数据从业者和理论家都会涉及数据元的概念。

无论用什么方法或技术,数据元都是整个软件开发生命周期(SDLC)的公用纽带。

在SDLC的早期阶段,它们曾被视为实体(或对象类)的属性在SDLC的后期,具体的数据值被赋予它们的实例作为符号组或字符列。

在SDLC的任一阶段,对于软件的生产者和用户来说,数据元是可识别的数据元是数据共享和共同持有的最小单元。

一些数据元得以共享的信息系统成分有:

a)企业信息模型;b)数据模型;c)数据流程图;d)数据库设计(模式、文件、表格);e)接口规范;f)计算机程序

1.2.1数据模型中的数据元

在数据建模出现之前,“数据元”这个术语已被普遍使用。

用于表示指导企业商务信息的数据单元传统上被称之为数据元。

数据建模的演进就是为捕捉这些数据表示的语义提供一种有效的方法。

图A.1描述了用于GB/T18391中的数据元结构和术语与一些更为传统数据建模术语的关联在一个数据模型中,一个实体(实体类型、对象类等)的某个特性的属性会被企业选择记录为数据。

对每个实体,通常有许多属性会引起企业的兴趣。

数据模型和对象模型(面向对象定向范例中)用于识别兴趣体(实体或对象)应用相关环境中的诸多事物。

属性提供关干这些实体和对象使用所需的信息。

用于整个自动化信息系统环境的数据元是面向对象范例中这些实体或对象以及它们属性的表示。

产生于数据模型的数据元的名称的典型形式是实体

名称和实体属性名称的合成(图A.2).

数据元名称大体上是以同样方式产生的。

在对象模型中,类或对象名称与类或对象属性混合使用以形成数据元名称(图A.3)。

对象模型不同于数据模型的地方在于:

前者可包含有关对象或类的附加信息,如行为或运行

在数据模型或对象模型中,一个属性经常等同于一个数据元(见图A.3)。

它是自然界中对象某个类单个特性的表示。

而另一类思路是将对象类特性的概念与特性的表示分隔开来。

由于数据元包含了示,人们不必依靠其在数据库、屏幕和纸张等中的表示就可以了解其隐含的思想,因而将其隐含思想隔开来是合理而又明智的。

这与那些将属性看作与值域有关,而不是属性具有值域的数据建模技术是一致的。

在某些情况下,如度量单位,属性与数据元间存在着明显的差异。

例如:

‘旧期”是时间连续区上用来度量最近一天的一个点。

这样,它可以被看作一个单独的事实并用一个单独的属性表示在一个数据模型中。

但是,有好几种方式来表示一个日期。

在美国,最常用的是:

月的名称、一月中的天数和年数。

它们是三个数据元。

然而,同样的日期事实可以过去某确定日期后所流逝的天数这样一个单独的数据元来表示(如天文学家就使用儒略历)。

许多单独事实可以用多于一种度量衡单位来表示,既可用英制表示,也可用公制来表示一个数据元概念上的等同体被称之为:

属性、特性、数据元概念、逻辑数据元和商务事实。

在此,它是作为一个特性来论及的,以区别于人们通常所说的属性(一般包括其表示形式)。

这样,特性就成了某个对象类所有成员共有的特征。

特性可以用一个例子来解释。

假设一棵树是自然界中我们感兴趣的对象。

但是,我们关心的是任一棵树,而不是某棵具体的树。

树的特征中我们感兴趣的是其高度。

树高就是一个对象类加上一个特性(数据兀概念),但还不是一个数据元,因为合适的表示形式尚未阐明。

我们可以从多个度量高度的方式中选择一个来表示树高

相对于特性,人们更倾向于用特性类这个术语来命名数据元那个方面。

对象中的一类如:

人群没有身高;而每一个对象个体,如:

个人,就有身高。

因此,对于称之为人群的对象类来说,身高是该对象类的一个特性类。

但在该标准中,术语特性的使用遵循常用法则。

有时,数据元可以由几个表示为数据元的要素部分来派生,每个部分又表示为数据元。

这些派生物可以有许多形式。

一个例子是电话号码由几个要素部分组成。

在美国,电话号码由十位数字唯一地描述,这些号码很容易由一个数据元表示。

但是,电话公司(和其他公司)需要将电话号码分隔为区号、交换码和线路号,形成三个数据元。

将区号、交换码和线路号串联起来(以正确的方式)形成一个数据元以表示整个电话号码。

另一个派生的例子是代数运算。

均值(或平均数)的计算需要观测值及其个数,因此,一个人群平均年龄的计算需要表示人群年龄的数据元和表示人群中人数的数据元。

这样,就可以用派生中阐明的公式进行显而易见的算术运算。

这些例子是相当简单的,但不难想象那些需要在数据元中搜集的更为复杂的派生类型。

与数据元关联的派生为现存的数据元与新需要的数据元之间发生关联提供了一个强有力的手段。

A.1.2.2表中的数据元关系型数据库中的数据元以字段名的形式出现于表格中。

图A.4给出了数据库表格中数据元的一个例子。

1.2.3数据管理工具中的数据元

图A.5标明了数据管理工具中经常与数据元(黑体部分)有关联的术语。

1主题词表

主题词表是使相关术语关联的工具,主题词表术语有助于现有数据元的定位。

查找名称构件的大量同义同,近义词以及同形异义词使得主题词表成了一个很有用处的工具。

它能够提供首选名称术语和其他术语间语义上的联系在指导同形异义词(拼写相同而表示不同概念的词)使用的同时,主题词表还可以指导用户通过涉及等同、层次以及关联关系的选择.一个标准名称构件的主题词表可以由注册员开发并分配给各有关方面;此外,应鼓励主体领域主题词表的开发

2.2分类法和本体论

分类(如“属”和“种”)至少可以通过两种途径实现。

第一种,同时也是最简单的方法是标准化方法,即每当一个新数据元注册时,该方法就会生成一个分类。

更理想但非常麻烦的方法是,首先形成一个包括所有可能数据元的完备分类,然后将新注册的数据元放人事先定义好的位置。

最为实用的方法是,先形成一个基本的而相对较为简单的分类,在数据元被注册时,允许其在使用严格规则的情况下逐渐完善。

最为普遍的方法是通过词典编纂的形式产生一种分类法。

词典编纂过程更加关注语言的词或词汇而并不直接关注语义学。

如果人们接受了这样假设除非一个概念可以用词汇加以描述,否则,人们是无法理解此概念的。

这样,词典编纂者的方法就可以服务于数据元的分类要求。

即人们可以为其所思考的概念创造词汇每一个数据元注册应具有最大满足其用户的特定分类。

如此,不同的注册可以选择使用不同的分类。

在一个分类中,每个节点是一个或多个上位类的一个下位类。

该节点不仅沿用了上位类的含义,而且其含义同时也受到了上位类的限制。

无论一个数据元被定义得如何好,分类对用于其中的节点含义的确切描述,无疑具有极大的帮助作用。

分类的另一个主要的好处在于有助于一个具体数据元的查找分类通过大量的数据元描述支持导航查询。

一个基本的分类结构应能有助于数据元的注册、分析和应用。

它基于这样的前提:

数据元是自然界存在的对象类的特性的表示。

数据元的类别由这样三个类组成:

a)对象类;b)特性;C)表示形式通过查找该类概念的标记,就可以查出所需的数据元。

数据元的分类模式最好通过实例进行描述。

但是,一个数据元分类模式可以用于多个实例。

这主要取决于元数据用户是否为数据的最终用户或是否参与信息资源管理若是后者,则取决于他们在软件开发生命周期中所处的阶段。

例如数据建模者应用其定义数据库结构以支持一项具体应用。

a)数据建模者发现需要使用该方法处理一项具体的数据。

在本例中,是测量马的高度。

b)数据建模者认识到可以称该“特性”为“高度”。

为了通过注册,数据元注册被建议使用面向导航的特性分类。

在处理尺寸的分类范围内,发现了名为“高度”的这个类。

该类名的定义确认了其描述了所指特性。

C)数据建模者认识到该对象类可以称之为“马”。

在该注册中,对象类分类被建议使用“动物”类下的“马”这一类名。

该类名的定义证实这是所需要的。

马就成为数据模型使用中的对象类。

d)数据元注册表明高度这一特性被视为与马这一对象类相关联。

注册则为这一特性是马从其站立的平面到其肩隆的(即:

肩部)位距。

E)表示分类用于查找用于度量的注册。

注册中马的一个标准化的数据元是以公制中米表示的高度。

但是,数据建模者知道该数据元不会满足需要,因为最终用户坚持用传统方法—掌宽来测量并记录马的高度。

用该分类模式查找注册簿则发现没有这样的数据元被注册。

f)数据建模者描述了以掌宽为度量单位测量的关于马高的新数据元的表示形式。

该数据元得到了充分描述并被提交注册。

只是其表示(即:

主要是值域)需要重新描述,因为马这一对象类及其附属特性高度已经被注册过。

9)在数据模型的应用中,高度掌宽度量将成为马的一个属性。

h)将来,当任何人需要该数据元时,会发现其在注册中的描述使用了三种分类模式。

对象分类中马类、特性分类中高度类和表示分类中掌宽度量类的联系,可以使将来的用户直接找到该数据元的此类描述。

在国标数据元的分类中,数据元分类模式得到了详细描述。

在实际中,特性和对象类间的区别并不常常是绝对的。

差异与考虑中所要论述的领域有关,其最好的例子是身体特性。

比如,眼睛颜色名称可被视为一个数据元概念,眼睛是其对象类,颜色是其特性。

源于该数据元概念的许多可能数据元中的一个数据元可以是眼睛颜色名称。

但是,如果某人从事标记各类可观察到的颜色时,颜色将成为对象类,而特性则可被称之为标记。

与之关联的一个数据兀可以被称之为颜色名称。

在此,颜色是一个对象类,而在第一个例子中,它是一个特性。

但没有一个可以被视为不正确。

第二个结构可以用于眼睛颜色中,眼睛颜色可以视为眼睛对象类与颜色对象类之间关系的对象类

另一种描述眼睛颜色的方法是将其作为一个子类眼睛颜色作为颜色对象类下面的一个子对象类。

例3和例4结果的实质是一样的,就这两个例子来说,眼睛颜色名称的值域可以是颜色名称值域的集。

关于此情况的另一种思路是:

颜色名称值域可以作为1)在例4中颜色子集,或2)在例3中与颜色关联所有对象类的一个超集。

GB/T18391允许此种数据元结构变体的使用。

3数据元的元数据属性

1标识

如同由数据元表示的特性和对象类一样,唯一的数字型标识符赋予给每一个已注册的数据元。

在有些情况下,唯一的数字型标识符也是一个数据元的给定数值。

这些唯一的标识符也被注册在一个数据元注册中。

它们使得可以跨越自然语言和应用系统直接解释这些数据元。

虽然数据元在不同的自然语言中或在同一种语言的多种版本中会有不同的解释,但具有唯一性的标识符保持不变,并成为由一个版本向另一个版本转化的桥梁。

每一个数据元应获得一个标识符以使该数据元在整个计算空间中得到唯一的标识。

而这些计算空

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 法律文书 > 调解书

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1