实现数据开放共享的方法.docx
《实现数据开放共享的方法.docx》由会员分享,可在线阅读,更多相关《实现数据开放共享的方法.docx(33页珍藏版)》请在冰豆网上搜索。
实现数据开放共享的方法
实现数据开放共享的方法
当前之所以存在严重的信息孤岛问题、数据难以开放共享,根本原因在于当前的信息系统设计的理论体系有问题。
信息孤岛犹如爱滋病,一旦产生就不可医治,BI、EAI、EDI、ETL、ESB只是减缓症状的方法,治标不治本。
本文的方法是在系统的设计阶段实现数据的开放共享,从根本上避免信息孤岛问题的产生。
火车是以标准的钢轨为基础避免了铁路交通孤岛而实现了互联互通,本文借鉴了此方法。
目录
第1章概要3
第2章信息孤岛的根源在于关系数据库理论有问题4
2.1当前的信息孤岛为什么是不治之症4
2.2关系数据库理论是以服务器为中心的孤岛型理论5
2.3当前的信息系统软件开发模式的特点6
2.4从技术上分析关系数据库理论所存在的问题7
2.5关系数据库理论是单机时代的产物,不适应互联网时代8
第3章利用万能数据结构表实现数据开放共享10
3.1火车的互联互通及机械零部件的互换性对信息系统设计的启示:
标准化10
3.2数据结构的标准化:
万能数据结构11
第4章两种完全不同的软件设计模式的对比15
4.1万能数据结构表是一门全新的数据库理论15
4.2数据的标准化、数据的完整性15
4.3独立数据库与关系数据库理论的对比19
第5章独立数据库简介21
5.1独立数据库的技术特点:
是一种数据优化、查询技术22
5.2如何证明“万能数据结构表”是万能的24
5.3独立数据库的一项重要任务就是根除关系28
第1章概要
当前的数据之所以难以开放共享,根本原因在于当前的信息系统设计的理论体系有问题。
实现数据开放共享、互联互通可以借鉴火车的设计思路。
我国的火车之所以可以在全国各地互联互通,是因为我国各地的钢轨都是标准的,各种火车是以标准的钢轨为基础而设计。
我国的钢轨与前苏联的钢轨是不相同的,我国的火车要经过前苏联国家时,就要换车轮,换一次车轮需要80分钟。
当前的各种信息系统中的数据全都是异构的,犹如钢轨的宽度各不相同,当前的系统之间互联互通是通过转换数据结构的方式而实现,犹如换车轮。
BI、EAI、EDI、ETL、ESB等都是通过“换车轮模式”而实现互联互通。
铁路交通只是利用钢轨的标准化这种非常简单的方法就从根本上避免了铁路交通孤岛问题的产生。
本文解决信息孤岛问题的方法也很简单,本文是通过对数据及数据结构的标准化而从根本上避免信息孤岛问题的产生,犹如火车通过钢轨的标准化而实现互联互通。
本文中的方法与当前的信息系统设计的理论体系完全不同,是一种全新的信息系统设计模式。
当前设计各种信息系统的特点:
数据及数据结构完全由设计人员自己决定,因此各信息系统中的数据完全是异构的,这犹如全国各地都是分别设计自己的火车,各地的火车钢轨都是不相同的。
本文借鉴了铁路交通的设计思路:
在设计各种信息系统时,必须按标准的数据及标准的数据结构为基础而设计,不允许设计人员随意地定义数据及数据结构。
万能数据结构表就是标准的数据结构表。
万能数据结构表可以存贮各种各样的结构化数据。
如果各个信息系统中的数据及数据结构都是标准的,那么数据就可以象火车一样在各个信息系统之间互联互通。
当前的实现数据开放共享、互联互通的方法可称作是“换车轮模式”。
本文实现数据开放共享的方法所采有的模式可称作是“标准化模式”。
“标准化模式”是以“独立数据库”为基础而设计的。
“独立数据库”是一种与关系数据库理论完全不同的全新的数据库理论。
【作者:
269779216@】
第2章信息孤岛的根源在于关系数据库理论有问题
在信息化领域,关系数据库独占鳌头!
当前的大部分信息系统都是以关系数据库为基础。
本文之所以要介绍独立数据库,是因为以关系数据库理论为基础而设计的信息系统都不能有效地实现数据的开放共享、互联互通。
在介绍独立数据之前,非常有必要研究清楚以关系数据库为基础的信息系统为什么都是孤岛型的系统。
也可以为什么只有抛弃关系数据库理论才能从根本上解决信息孤岛问题。
2.1当前的信息孤岛为什么是不治之症
通过下面的分析、计算就会发现当前的信息孤岛是不治之症。
这是由当前的信息孤岛的实际情况及解决信息孤岛的方式所决定的。
当前的实际情况:
当前的各种信息系统都是孤岛型的,因为设计人员在开发各种信息系统时都没有考虑数据的互联互通问题,没有通用的数据接口。
如果需要与某个系统实现数据的互联互通,则需要开发专用的“点对点式的数据接口”。
如果与N个系统实现数据的互联互通,那么至少要开发N个数据接口。
用现有的技术为什么不能根除信息孤岛?
从理论上而言,利用现有技术可以通过转换数据结构的方式而实现任意两个信息系统之间的特定数据的互联互通、开放共享,然而由于全球的各种信息系统的数量超过千万,全球所产生的数据超过数万亿条,而且信息系统及数据还在不断地增加,面对如此海量的异构的、不标准的数据,“转换数据结构”的方法所花的成本非常高、不可承受。
因此,当前的信息孤岛只能在局部进行缓解,而不能整体上得到根治。
利用现有技术设计信息系统时,每增加一个信息系统,就增加了一个孤岛。
两个系统之间的互联互通约需要1个人月的工程量;三个系统之间的互联互通约需要(3-1)+(3-2)=3个人月的工程量;四个系统之间的互联互通约需要(4-1)+(4-2)+(4-3)=6个人月的工程量;N个信息系统之间的互联互通约需要((N-1)+(N-2)+(N-3)+……+3+2+1)个人月的工程量。
由计算公式可看出,随着信息系统的数量的增多,系统之间的互联互通的工程量十分巨大,无法承受。
因此,当前的信息孤岛是不治之症。
这与当前的事实是相符的,自从关系数据库理论产生的40多年来,世界各地的信息孤岛问题都未能得到有效解决。
用关系数据库理论开发信息系统,会产生无穷无尽的数据结构,也会产生无穷无尽的不标准、不规范的数据。
对于用关系数据库理论所设计的信息系统而言,随着信息系统的数量的增加,信息孤岛问题也将会更加严重。
也可以说关系数据库理论是信息孤岛的发源地,人们虽说想尽各种方法来解决信息孤岛让数据互联互通,然而信息孤岛问题不降反增。
信息孤岛一旦产生,就不可根治。
因为当前的信息系统中的数据的数据结构是不标准的、数据是不标准的,数据与数据库系统密不可分,数据与应用程序密不可分,数据只有在原系统中才是有意义的,一旦脱离了原来的系统,就会变成无意义的数据。
当前解决信息孤岛实现互联互通的方法(例如BI、EAI、EDI、ETL、ESB等等)都是通过转换数据结构(换车轮模式)、开发点对点式的数据接口而实现,然而这种方法只能治标,不能治本。
利用现有技术无法开发出通用的数据接口。
2.2关系数据库理论是以服务器为中心的孤岛型理论
关系数据库理论建立在封闭的局域网的基础之上:
“所有的数据都处于一个完全封闭的系统中”。
关系数据库理论中没有互联互通的内容,也没有数据接口的内容。
关系数据库理论是一种以自我为中心的孤岛型理论:
“我只处理我的数据,不处理你的数据,你只处理你的数据,你也不能处理我的数据,你我之间没关系。
”关系数据库理论的创始人根本就没有考虑互联互通的问题,关系数据库理论是一种仅适用于单机、局域网的数据库理论。
互联互通的信息系统没有中心:
“我要处理我的数据,还要处理你的数据和他的数据,你要处理你的数据,也要处理我的数据和他的数据,你我他之间的数据要互联互通。
”
关系数据库理论是“独立王国”的孤岛型理论,关系数据库设计人员是“独立王国”的国王,国王就是法律,数据类型、数据结构全由国王任意定义。
互联互通需要的是没有国王的民主社会的民主型理论,数据库的设计人员不再是国王而是民主社会中的一员,他的一言一行(数据、数据结构)都必须受到民主社会的“法律、行为规范(通信协议)”的制约。
问题是当前的关系数据库理论中没有结构化数据互联互通的通信协议。
关系数据库的问题:
由设计人员任意定义数据和数据结构,各方的数据和数据结构各不相同。
因此,数据的接收方无法直接把数据存贮到自己的数据库中。
关系数据库中的数据是一种有结构的数据,然而对方又没有这样的结构,因此,数据发送到对方的数据库之后就是不可识别的数据。
只要是用关系数据库理论所设计的信息系统,其数据必定不可能在各个数据库之间互联互通,必定是孤岛型系统。
30多年来关系数据库在结构化数据处理方面独占鳌头,为全球的信息化建设立下了汗马功劳,是信息化社会的大功臣!
当前之所以会出现严重的信息孤岛问题、互联互通问题、数据难挖掘问题,与关系数据库密不可分,关系数据库是信息孤岛问题的罪魁祸首!
人们曾花费巨额资金,希望通过BI、EAI、ETL、EDI、ESB等技术来解决信息孤岛,实现数据的互联互通,然而全球的大量事实表明,效果很不理想。
2.3当前的信息系统软件开发模式的特点
当前的信息系统软件开发模式是:
先设计出数据结构各不相同的系统,然后再通过转换数据结构而实现互联互通,犹如先设计出“结构各不相同的车轮”的火车,然后再换车轮互通,这种软件开发模式可称作是“换车轮模式”、“后ETL模式”。
用本文中的方法设计软件时,其开发模式是:
各信息系统必须按照标准的、统一的“事物信息表”而设计信息系统,犹如按标准的钢轨而设计火车,这种软件开发模式可称作是“标准化模式”、“先ETL模式”,按这种模式所开发出的信息系统实现数据的互联互通、开放共享交换非常容易,在技术上不存在信息孤岛问题。
在小数据时代,各行各业的信息系统中的数据及数据结构基本上都是不标准、不规范的,各个信息系统中的数据完全由系统的设计人员任意定义,因此,各信息系统中的数据都是异构的、不标准的,结果导致了非常严重的信息孤岛问题。
不同的信息系统要实现互联互通、共享交换,就必须通过转换数据结构的方式来实现。
然而面对全球数千万个以上的信息系统,数万亿条以上的异构的、不标准的数据,要实现各个信息系统之间的互联互通、共享交换,用传统的转换数据结构的方法就非常困难,甚至可以说根本不可能在可承受的时间内实现。
现有软件开发模式的根本错误在于“数据治理的先后次序”搞反了。
当前的BI、EAI、ETL、EDI等技术都是在“疾病”产生了之后再“治疗疾病”。
在大数据时代,应该是在设计各种信息系统之前就对各行各业的数据进行“数据治理”,并形成各行各业的国际数据标准、国家数据标准、行业数据标准,而不是等到数千万个软件系统产生了无比海量的不标准、不规范的数据之后再治理数据。
2.4从技术上分析关系数据库理论所存在的问题
下面的两张表中的数据对关系数据库而言是合格的,然而这两张表中的数据是普通人难以看懂的:
表3:
关系数据库中的表
ID
XM
XB
NL
TZ
SG
1
张三
男
56
72
180
表4:
关系数据库中的表
ID
XM
XB
ZYF
XYF
QTFY
2146
张三
男
56
72
180
上面两表中的数据的实际含义如下:
表5:
表2的实际内容
ID
姓名
性别
所龄
体重
身高
1
张三
男
56
72
180
表6:
表3的实际内容
ID
姓名
性别
中药费
西药费
其它费用
2146
张三
男
56
72
180
下表是用发明专利技术万能数据结构表“事物信息表”而设计的表,该表中的数据无论是谁,只要懂汉语,就可以看懂表中内容:
事物信息表存贮数据的例子
ID
事物代号
事物属性
事物属性值
超长属性值
单位
附件
时间
100
280
事物分类
体育管理系统
2014.3.2
101
280
事物分类
教练信息
2014.3.2
102
280
事物分类
教练基本情况
2014.3.2
103
280
身份证号
XXXXXXXXXX
2014.3.2
105
280
姓名
张三
2014.3.2
106
280
性别
男
2014.3.2
107
280
年龄
56
2014.3.2
108
280
体重
72
KG
2014.3.2
109
280
身高
180
CM
2014.3.2
1100
1280
事物分类
病历
2014.5.3
1101
1280
事物分类
住院病历
2014.5.3
1102
1280
事物分类
医疗费用
2014.5.3
1103
1280
身份证号
XXXXXXXXXX
2014.5.3
1104
1280
住院号
XXXXXXXXXX
2014.5.3
1105
1280
姓名
张三
2014.5.3
1106
1280
性别
男
2014.5.3
1107
1280
中药费
56
元
2014.5.3
1108
1280
西药费
72
元
2014.5.3
1109
1280
其它费用
180
元
2014.5.3
关系数据库中的数据与数据结构密不可分。
关系数据库中的每一个数据都是有数据结构的,一旦失去相应的数据结构,就成了无意义的数据。
关系数据库中的数据与应用程序密不可分。
目前的信息系统都是通过应用程序来解读关系数据库中的数据,然而每个应用程序只能解读自己的系统中的数据而无法解读其它系统中的数据。
关系数据库中的数据不具独立性、完整性,数据一旦脱离相应的数据库系统及相应的应用程序就变成了无意义的数据。
2.5关系数据库理论是单机时代的产物,不适应互联网时代
信息孤岛问题是IT领域的一个非常严重的问题。
人们在20年前就注意到了信息孤岛问题,并开始寻找解决信息孤岛问题的方法,然而20多年过去了,全世界无数的非常聪明的IT人士想尽了各种方法,例如BI、EAI、EDI、ETL、ESB,然而当前的众多事实表明,信息孤岛问题不但没有从根本上加以解决,反而越来越严重。
人们为什么无法根除信息孤岛问题呢?
产生信息孤岛的根本原因在于关系数据库理论,因为关系数据理论单机时代的产物,创始人当时未考虑数据在各个信息系统之间的互联互通问题!
关系数据库理论是在互联网产生之前的单机时代创立的。
关系数据库理论于1970年6月由IBM公司的埃德加考特(EdgarFrankCodd)创立。
ORACLE诞生于1979年。
互联网诞生于1973年至1984年之间。
1984年,美国国防部将TCP/IP作为计算机网络的标准。
关系数据库理论中没有数据交换共享的概念,也没有数据接口的概念。
关系数据库所关心的只是如何处理自己的数据(单机中的数据),而未考虑如何处理从其它数据库发过来的数据,也未考虑如何把数据发送到其它数据库。
关系数据库的特点是:
“你的数据库处理你的数据,我的数据库处理我的数据。
我不处理你的数据,你也不处理我的数据,你我之间是没有关系的。
”
在单机时代、局域网时代,关系数据库在处理结构化数据方面发挥出了巨大的作用。
然而,随着互联网时代的到来,人们不但希望信息系统处理自己的数据,还希望各个信息系统之间可以共享交换数据,希望数据可以互联互通。
为了解决信息孤岛问题,人们发明了BI、EAI、EDI、ETL、ESB等等很多方法。
随着IT技术的飞速发展,全世界的各行各业建立了大量的信息系统,然而20多年来全世界花费了巨大的人力、物力来解决信息孤岛问题,到如今,信息孤岛问题不但没有根除,反而比以前更严重,信息系统之间的互联互通、数据的开放共享还是非常困难!
第3章利用万能数据结构表实现数据开放共享
本文解决信息孤岛实现数据开放共享的方法非常简单,犹如火车通过钢轨的标准化而实现了铁路交通的互联互通,万能数据结构表就是信息系统的标准的钢轨。
3.1火车的互联互通及机械零部件的互换性对信息系统设计的启示:
标准化
火车之所以能够在全国各地互联互通,是因为全国的钢轨都是标准的,我国的各种火车都是以标准的钢轨为基础而设计的。
机械零部件的互换性是机械中的一个非常重要特性。
机械工程师在设计机械设备时都要尽量采用标准的零部件。
火车的互联互通及机械零部件的互换性都是以“标准化”为基础。
如果说全国各地的钢轨各不相同,那么无论采用什么样的换车轮的方法,都不可能从根本上解决铁路交通的孤岛问题。
这个道理大家都能理解。
奇怪的是在IT领域,人们到目前为止还是采用“换车轮的模式”来解决信息孤岛问题。
IT行业的软件工程师几乎没有标准的概念。
软件设计人员在设计软件系统时几乎不考虑任何标准,各种信息系统中的数据完全由软件设计人员自己任意定义,其结果就是各种信息系统中的数据全是不标准、不规范的异构数据。
铁路交通以“钢轨的标准化”而从根本上避免了“铁路交通孤岛”问题的产生。
如果各种信息系统的数据及数据结构也采用标准化的数据和数据结构,那么,也可以从根本上实现各种信息系统之间的互联互通!
然而利用关系数据库技术,不可能使数据结构标准化、统一化。
本文中的“事物信息表”可存贮各种各样的结构化数据,可以成为标准的数据结构表。
关系数据库理论存在致命缺陷的一个重要原因在于“由设计人员自己随意定义数据结构”,其结果就产生了大数据时代的“数据类型多”的大问题。
为了从根本上解决“数据类型多”的问题,利用本文的方法在设计信息系统时,不充许数据库的设计人员随意地定义数据结构,为了使数据可以互联互通,存贮任何数据都必须采用统一的、标准的、固定的数据结构表“万能数据结构表”来存贮。
本文之所以自始至终强调“只用一张表或若干张结构完全一样的事物信息表存贮数据、数据的完整性”,目的就是让数据可以在不同的信息系统之间互联互通”。
3.2数据结构的标准化:
万能数据结构
下面的表1是“事物信息表”,“事物信息表”是万能数据结构表,可以只用一张表而存贮各种关系数据库中的任意结构的数据。
表1只用一张表就存贮了“1、动物档案;2、销售订单表;3、销售订单明细表;4、患者基本情况;5、症状;6、员工身高体重;7、通信录;8、医疗费用”的数据。
若用关系数据库理论中的方法来存贮这些数据就需要8张结构各不相同的表。
表1:
事物信息表只用一张即可存贮各种各样的结构化数据
ID
事物代号
事物特征
事物特征值
超长特征值
单位
附件
时间
65
2367
事物分类
动物管理系统
66
2367
事物分类
企鹅
67
2367
事物分类
帝企鹅
68
2367
事物分类
动物档案
69
2367
动物编号
3
70
2367
名字
汉武帝
81
2367
动物简介
帝企鹅(学名:
Aptenodytesforsteri):
也称皇帝企鹅,是企鹅家族中个体最大的,一般身高在90厘米以上,最大可达到120厘米,体重可达50千克。
其形态特征是脖子底下有一片橙黄色羽毛,向下逐渐变淡,耳朵后部最深。
全身色泽协调。
颈部为淡黄色,耳朵的羽毛鲜黄橘色,腹部乳白色,背部及鳍状肢则是黑色,鸟喙的下方是鲜桔色。
71
2367
购入日期
2013/3/21
72
2367
身高
1.2
m
73
2367
体重
20
kg
74
2367
出生日期
2011/4/2
75
2367
照片
JPG
76
2367
笼舍编号
98
77
2367
管理员
张三
78
2367
父
1
79
2367
母
2
80
2367
性别
雄
2
128
事物分类
销售订单表
3
128
订单ID
10248
4
128
客户名称
山泰企业
5
128
销售负责人
赵军
6
128
订购日期
1996/7/4
7
128
到货日期
1996/8/1
8
128
发货日期
1996/7/16
9
128
运货商
联邦货运
10
128
运货费
32.38
元
11
128
货主名称
余小姐
12
128
货主地址
光明北路12号
14
9813
事物分类
产品销售系统
15
9813
事物分类
销售订单明细表
16
9813
订单ID
10248
17
9813
产品名称
猪肉
18
9813
单位
14
元
19
9813
数量
12
Kg
20
9813
折扣
0
%
37
28
事物分类
住院病历
38
28
事物分类
患者基本情况
39
28
病案号
199109-2-215
40
28
身份证号
XXXXXXXXXXXX
41
28
姓名
徐XX
42
28
工作单位
石化总厂
43
28
职务
机械工
44
28
地址
上海市南京路
45
28
年龄
43
46
28
入院日期
1991/8/19
47
28
婚否
已婚
48
28
病史采取日期
1991/8/19
49
28
籍贯
浙江省宁波市
50
28
病史记录日期
1991/8/19
51
28
民族
汉
52
28
病情陈述者
患者本人
54
29
事物分类
住院病历
55
29
事物分类
现病历
56
29
事物分类
症状
57
29
病案号
199108-2-215
58
29
身份证号
XXXXXXXXXXX
59
29
姓名
张三丰
60
29
症状
寒战
61
29
症状
腹泻
62
29
诱因
洗澡时着凉
63
29
症状开始时间
1991/8/16
82
280
事物分类
人事管理系统
83
280
事物分类
员工身高体重
84
280
姓名
张三
85
280
性别
男
86
280