大数据库设计要求规范化地五个要求.docx

资源描述

大数据库设计要求规范化地五个要求.docx

《大数据库设计要求规范化地五个要求.docx》由会员分享，可在线阅读，更多相关《大数据库设计要求规范化地五个要求.docx（14页珍藏版）》请在冰豆网上搜索。

大数据库设计要求规范化地五个要求.docx

大数据库设计要求规范化地五个要求

数据库设计规X化的五个要求

通常情况下，可以从两个方面来判断数据库是否设计的比拟规X。

一是看看是否拥有大量的窄表，二是宽表的数量是否足够的少。

假如符合这两个条件，如此可以说明这个数据库的规X化水平还是比拟高的。

当然这是两个泛泛而谈的指标。

为了达到数据库设计规X化的要求，一般来说，需要符合以下五个要求。

　　要求一：

表中应该防止可为空的列。

　　虽然表中允许空列，但是，空字段是一种比拟特殊的数据类型。

数据库在处理的时候，需要进展特殊的处理。

如此的话，就会增加数据库处理记录的复杂性。

当表中有比拟多的空字段时，在同等条件下，数据库处理的性能会降低许多。

　　所以，虽然在数据库表设计的时候，允许表中具有空字段，但是，我们应该尽量防止。

假如确实需要的话，我们可以通过一些折中的方式，来处理这些空字段，让其对数据库性能的影响降低到最少。

　　一是通过设置默认值的形式，来防止空字段的产生。

如在一个人事管理系统中，有时候某某字段可能允许为空。

因为不是每个人都可以记住自己的某某。

而在员工报到的时候，可能某某没有带在身边。

所以，某某字段往往不能与时提供。

为此，某某字段可以允许为空，以满足这些特殊情况的需要。

但是，在数据库设计的时候，如此可以做一些处理。

如当用户没有输入内容的时候，如此把这个字段的默认值设置为0或者为N/A。

以防止空字段的产生。

　　二是假如一X表中，允许为空的列比拟多，接近表全部列数的三分之一。

而且，这些列在大局部情况下，都是可有可无的。

假如数据库管理员遇到这种情况，笔者建议另外建立一X副表，以保存这些列。

然后通过关键字把主表跟这X副表关联起来。

将数据存储在两个独立的表中使得主表的设计更为简单，同时也能够满足存储空值信息的需要。

　　要求二：

表不应该有重复的值或者列。

　　如现在有一个进销存管理系统，这个系统中有一X产品根本信息表中。

这个产品开发有时候可以是一个人完成，而有时候又需要多个人合作才能够完成。

所以，在产品根本信息表产品开发者这个字段中，有时候可能需要填入多个开发者的名字。

　　如进销存管理中，还需要对客户的联系人进展管理。

有时候，企业可能只知道客户一个采购员的某某。

但是在必要的情况下，企业需要对客户的采购代表、仓库人员、财务人员共同进展管理。

因为在订单上，可能需要填入采购代表的名字;可是在出货单上，如此需要填入仓库管理人员的名字等等。

　　为了解决这个问题，有多种实现方式。

但是，假如设计不合理的话在，如此会导致重复的值或者列。

如我们也可以这么设计，把客户信息、联系人都放入同一X表中。

为了解决多个联系人的问题，可以设置第一联系人、第一联系人、第二联系人、第二联系人等等。

假如还有第三联系人、第四联系人等等，如此往往还需要参加更多的字段。

　　可是这么设计的话，会产生一系列的问题。

如客户的采购员流动性比拟大，在一年内换了六个采购员。

此时，在系统中该如何管理呢?

难道就建立六个联系人字段?

这不但会导致空字段的增加，还需要频繁的更改数据库表结构。

明显，这么做是不合理的。

也有人说，可以直接修改采购员的名字呀。

可是这么处理的话，会把原先采购订单上采购员的名字也改变了。

因为采购单上客户采购员信息在数据库中存储的不是采购员的名字，而只是采购员对应的一个编号。

在编号不改而名字改变了的情况下，采购订单上显示的就是更改后的名字。

这不利于时候的追踪。

　　所以，在数据库设计的时候要尽量防止这种重复的值或者列的产生。

笔者建议，假如数据库管理员遇到这种情况，可以改变一下策略。

如把客户联系人另外设置一X表。

然后通过客户ID把供给商信息表跟客户联系人信息表连接起来。

也就是说，尽量将重复的值放置到一X独立的表中进展管理。

然后通过视图或者其他手段把这些独立的表联系起来。

　　要求三：

表中记录应该有一个唯一的标识符。

　　在数据库表设计的时候，数据库管理员应该养成一个好习惯，用一个ID号来唯一的标识行记录，而不要通过名字、编号等字段来对纪录进展区分。

每个表都应该有一个ID列，任何两个记录都不可以共享同一个ID值。

另外，这个ID值最好有数据库来进展自动管理，而不要把这个任务给前台应用程序。

否如此的话，很容易产生ID值不统一的情况。

　　另外，在数据库设计的时候，最好还能够参加行号。

如在销售订单管理中，ID号是用户不能够维护的。

但是，行号用户就可以维护。

如在销售订单的行中，用户可以通过调整行号的大小来对订单行进展排序。

通常情况下，ID列是以1为单位递进的。

但是，行号就要以10为单位累进。

如此，正常情况下，行号就以10、20、30依次扩展下去。

假如此时用户需要把行号为30的纪录调到第一行显示。

此时，用户在不能够更改ID列的情况下，可以更改行号来实现。

如可以把行号改为1，在排序时就可以按行号来进展排序。

如此的话，原来行号为30的纪录现在行号变为了1，就可以在第一行中显示。

这是在实际应用程序设计中对ID列的一个有效补充。

这个内容在教科书上是没有的。

需要在实际应用程序设计中，才会掌握到这个技巧。

　　要求四：

数据库对象要有统一的前缀名。

　　一个比拟复杂的应用系统，其对应的数据库表往往以千计。

假如让数据库管理员看到对象名就了解这个数据库对象所起的作用，恐怕会比拟困难。

而且在数据库对象引用的时候，数据库管理员也会为不能迅速找到所需要的数据库对象而头疼。

　　为此，笔者建立，在开发数据库之前，最好能够花一定的时间，去制定一个数据库对象的前缀命名规X。

如笔者在数据库设计时，喜欢跟前台应用程序协商，确定合理的命名规X。

笔者最常用的是根据前台应用程序的模块来定义后台数据库对象前缀名。

如跟物料管理模块相关的表可以用M为前缀;而以订单管理相关的，如此可以利用C作为前缀。

具体采用什么前缀可以以用户的爱好而定义。

但是，需要注意的是，这个命名规X应该在数据库管理员与前台应用程序开发者之间达成共识，并且严格按照这个命名规X来定义对象名。

　　其次，表、视图、函数等最好也有统一的前缀。

如视图可以用V为前缀，而函数如此可以利用F为前缀。

如此数据库管理员无论是在日常管理还是对象引用的时候，都能够在最短的时间内找到自己所需要的对象。

　　要求五：

尽量只存储单一实体类型的数据。

　　这里将的实体类型跟数据类型不是一回事，要注意区分。

这里讲的实体类型是指所需要描述对象的本身。

笔者举一个例子，估计大家就可以明白其中的内容了。

如现在有一个图书馆里系统，有图书根本信息、作者信息两个实体对象。

假如用户要把这两个实体对象信息放在同一X表中也是可以的。

如可以把表设计成图书名字、图书作者等等。

可是如此设计的话，会给后续的维护带来不少的麻烦。

　　如当后续有图书出版时，如此需要为每次出版的图书增加作者信息，这无疑会增加额外的存储空间，也会增加记录的长度。

而且假如作者的情况有所改变，如住址改变了以后，如此还需要去更改每本书的记录。

同时，假如这个作者的图书从数据库中全部删除之后，这个作者的信息也就荡然无存了。

很明显，这不符合数据库设计规X化的需求。

　　遇到这种情况时，笔者建议可以把上面这X表分解成三种独立的表，分别为图书根本信息表、作者根本信息表、图书与作者对应表等等。

如此设计以后，以上遇到的所有问题就都引刃而解了。

以上五条是在数据库设计时达到规X化水平的根本要求。

除了这些另外还有很多细节方面的要求，如数据类型、存储过程等等。

而且，数据库规X往往没有技术方面的严格限制，主要依靠数据库管理员日常工作经验的累积。

数据库设计中的反规X技术探讨

1.　数据库设计简述

数据库设计是把现实世界的商业模型与需求转换成数据库的模型的过程，它是建立数据库应用系统的核心问题。

设计的关键是如何使设计的数据库能合理地存储用户的数据，方便用户进展数据处理。

数据库设计完全是人的问题，而不是数据库管理系统的问题。

系统不管设计是好是坏，照样运行。

数据库设计应当由数据库管理员和系统分析员一起和用户一道工作，了解各个用户的要求，共同为整个数据库做出恰当的、完整的设计。

数据库与其应用的性能和调优都是建立在良好的数据库设计的根底上，数据库的数据是一切操作的根底，如果数据库设计不好，如此其它一切调优方法提高数据库性能的效果都是有限的。

数据的规X化

1.1.　X式概述

规X化理论是研究如何将一个不好的关系模式转化为好的关系模式的理论，规X化理论是围绕X式而建立的。

规X化理论认为，一个关系数据库中所有的关系，都应满足一定的规X（约束条件）。

规X化理论把关系应满足的规X要求分为几级，满足最低要求的一级叫做第一X式（1NF），在第一X式的根底上提出了第二X式（2NF），在第二X式的根底上又提出了第三X式（3NF），以后又提出了BFX式，4NF，5NF。

X式的等级越高，应满足的约束集条件也越严格。

规X的每一级别都依赖于它的前一级别，例如假如一个关系模式满足2NF，如此一定满足1NF。

下面我们只介绍1NF，2NF，3NFX式。

　　1.2.　1NF

　　1NF是关系模型的最低要求，它的规如此是：

　　每一列必须是原子的，不能分成多个子列。

　　每一行和列的位置只能有一个值。

　　不能具有多值列。

　　例：

如果要求一个学生一行，一个学生可选多门课，如此下面的“学生〞表就不满足1NF：

student（s－no,s－name,class－no）

　　其中：

s－no为学号，s－name为学生某某，class－no为课程号。

因为一个学生可选多门课，所以列class－no有多个值，所以空不符合1NF。

　　规X化就是把它分成如下两个表：

“学生〞表和“选课〞表，如此这两个表就都满足1NF了。

　　student（s－no,s－name）

　　stu－class（s－no,class－no）

　　1.3.　2NF

　　对于满足2NF的表，除满足1NF外，非主码的列必须依赖于所有的主码，而不是组合主码的一局部。

如果满足1NF的表的主码只有一列，如此它自动满足2NF。

　　例：

下面的“选课〞表，不符合2NF。

　　stu－class（s－no,class－no,class－name）

　　其中：

class－name为课程名称。

因为词表的主码是：

（s－no,class－no）,非主码列class－name依赖于组合主码的一局部class－no,所以它不符合2NF。

　　对该表规X化也是把它分解成两个表：

“选课〞表和“课程〞表，如此它们就都满足2NF了。

　　stu－class（s－no,class－no）

　　class（class－no,class－name）

　　1.4.　3NF

　　3NF的规如此是除满足2NF外，任一非主码列不能依赖于其它非主码列。

　　例：

下面的“课程〞表，不符合3NF。

　　class（class－no,class－name,teacher－no,teacher－name）

　　其中：

teacher－no为任课教师号，teacher－name为任课教师某某。

因为非主码列teacher－name依赖于另一非主码列teacher－no,所以它不符合3NF。

　　其解决方法也是把它分解成两个表：

“课程〞表和“教师〞表，如此它们就都满足3NF了。

　　class（class－no,class－name,teacher－no）

　　teacher（teacher－no,teacher－name）

　　1.5.　小结

　　当一个表是规X的，如此其非主码列依赖于主码列。

从关系模型的角度来看，表满足3NF最符合标准，这样的设计容易维护。

一个完全规X化的设计并不总能生成最优的性能，因此通常是先按照3NF设计，如果有性能问题，再通过反规X来解决。

　　数据库中的数据规X化的优点是减少了数据冗余，节约了存储空间，相应逻辑和物理的I/O次数减少，同时加快了增、删、改的速度，但是对完全规X的数据库查询，通常需要更多的连接操作，从而影响查询的速度。

因此，有时为了提高某些查询或应用的性能而破坏规X规如此，即反规X。

　　2.　数据的反规X

　　2.1.　反规X的好处

　　是否规X化的程度越高越好?

这要根据需要来决定，因为“别离〞越深，产生的关系越多，关系过多，连接操作越频繁，而连接操作是最费时间的，特别对以查询为主的数据库应用来说，频繁的连接会影响查询速度。

所以，关系有时故意保存成非规X化的，或者规X化以后又反规X了，这样做通常是为了改良性能。

例如某某系统中的“某某〞表B－TB01，它的列busi－balance（企业某某的总余额）就违反规X，其中的值可以通过下面的查询获得：

　　selectbusi－code,sum（acc－balance）

　　from　B－TB06

　　groupbybusi－code

　　如果B－TB01中没有该列，假如想获得busi－name（企业名称）和企业某某的总余额，如此需要做连接操作：

　　selectbusi－name,sum（acc－balance）

　　fromB－TB01,B－TB06

　　whereB－TB01.busi－code=B－TB06.busi－code

　　groupbybusi－code

　　如果经常做这种查询，如此就有必要在B－TB01中参加列busi－balance，相应的代价如此是必须在表B－TB06上创建增、删、改的触发器来维护B－TB01表上busi－balance列的值。

类似的情况在决策支持系统中经常发生。

　　反规X的好处是降低连接操作的需求、降低外码和索引的数目，还可能减少表的数目，相应带来的问题是可能出现数据的完整性问题。

加快查询速度，但会降低修改速度。

因此决定做反规X时，一定要权衡利弊，仔细分析应用的数据存取需求和实际的性能特点，好的索引和其它方法经常能够解决性能问题，而不必采用反规X这种方法。

　　2.2.　常用的反规X技术

　　在进展反规X操作之前，要充分考虑数据的存取需求、常用表的大小、一些特殊的计算（例如合计）、数据的物理存储位置等。

常用的反规X技术有增加冗余列、增加派生列、重新组表和分割表。

　　2.2.1.　　增加冗余列

　　增加冗余列是指在多个表中具有一样的列，它常用来在查询时防止连接操作。

例如前面例子中，如果经常检索一门课的任课教师某某，如此需要做class和teacher表的连接查询：

　　selectclass－name,teacher－name

　　from　class,teacher

　　where　class.teacher－no=teacher.teacher－no

　　这样的话就可以在class表中增加一列teacher－name就不需要连接操作了。

　　增加冗余列可以在查询时防止连接操作，但它需要更多的磁盘空间，同时增加表维护的工作量。

　　2.2.2.　　增加派生列

　　增加派生列指增加的列来自其它表中的数据，由它们计算生成。

它的作用是在查询时减少连接操作，防止使用集函数。

例如前面所讲的账户系统中的表B－TB01的列busi－balance就是派生列。

派生列也具有与冗余列同样的缺点。

　　2.2.3.　　重新组表

　　重新组表指如果许多用户需要查看两个表连接出来的结果数据，如此把这两个表重新组成一个表来减少连接而提高性能。

例如，用户经常需要同时查看课程号，课程名称，任课教师号，任课教师某某，如此可把表class（class－no,class－name,teacher－no）和表teacher（teacher－no,teacher－name）合并成一个表class（class－no,class－name,teacher－no,teacher－name）。

这样可提高性能，但需要更多的磁盘空间，同时也损失了数据在概念上的独立性。

　　2.2.4.　　分割表

　　有时对表做分割可以提高性能。

表分割有两种方式：

　　1水平分割：

根据一列或多列数据的值把数据行放到两个独立的表中。

　　水平分割通常在下面的情况下使用:

A表很大，分割后可以降低在查询时需要读的数据和索引的页数，同时也降低了索引的层数，提高查询速度。

B表中的数据本来就有独立性，例如表中分别记录各个地区的数据或不同时期的数据，特别是有些数据常用，而另外一些数据不常用。

C需要把数据存放到多个介质上。

　　例如法规表law就可以分成两个表active－law和inactive－law。

activea－authors表中的内容是正生效的法规，是经常使用的，而inactive－law表如此使已经作废的法规，不常被查询。

水平分割会给应用增加复杂度，它通常在查询时需要多个表名，查询所有数据需要union操作。

在许多数据库应用中，这种复杂性会超过它带来的优点，因为只要索引关键字不大，如此在索引用于查询时，表中增加两到三倍数据量，查询时也就增加读一个索引层的磁盘次数。

　　2垂直分割：

把主码和一些列放到一个表，然后把主码和另外的列放到另一个表中。

如果一个表中某些列常用，而另外一些列不常用，如此可以采用垂直分割，另外垂直分割可以使得数据行变小，一个数据页就能存放更多的数据，在查询时就会减少I/O次数。

其缺点是需要管理冗余列，查询所有数据需要join操作。

　　3.　反规X技术需要维护数据的完整性

　　无论使用何种反规X技术，都需要一定的管理来维护数据的完整性，常用的方法是批处理维护、应用逻辑和触发器。

批处理维护是指对复制列或派生列的修改积累一定的时间后，运行一批处理作业或存储过程对复制或派生列进展修改，这只能在对实时性要求不高的情况下使用。

数据的完整性也可由应用逻辑来实现，这就要求必须在同一事务中对所有涉与的表进展增、删、改操作。

用应用逻辑来实现数据的完整性风险较大，因为同一逻辑必须在所有的应用中使用和维护，容易遗漏，特别是在需求变化时，不易于维护。

另一种方式就是使用触发器，对数据的任何修改立即触发对复制列或派生列的相应修改。

触发器是实时的，而且相应的处理逻辑只在一个地方出现，易于维护。

一般来说，是解决这类问题的最好的方法。

　　4.　完毕语

　　数据库的反规X设计可以提高查询性能。

常用的反规X技术有增加冗余列、增加派生列、重新组表和分割表。

但反规X技术需要维护数据的完整性。

因此在做反规X时，一定要权衡利弊，仔细分析应用的数据存取需求和实际的性能特点。

Oracle数据库设计阶段性能优化策略

通过对Oracle数据库系统物理结构和逻辑结构的分析，阐述了在Oralce数据库设计开发阶段性能优化的一些策略和方法。

Oracle是目前使用最为广泛的大型数据库管理系统，提高Oracle数据库系统的运行效率，是整个计算机信息系统高效运转的前提和保证。

影响Oracle数据库应用系统性能的因素很多，既有软件方面的因素，也包括数据运行的硬件环境、网络环境、数据库管理和维护方面的因素等。

数据库系统设计开发阶段是Oracle应用优化的最优阶段，也是主动优化阶段，能达到以最小本钱获得最大性能增益的目的。

通过对其逻辑存储结构和物理存储结构设计进展优化，使之在满足需求条件下，时空开销性能最优，可以解决数据库系统运行过程中性能的渐进性下降或性能突降等问题，以保证系统运行的优良性能。

Oracle数据库的逻辑结构和物理结构

Oracle数据库的逻辑结构是由一些数据库对象组成，如数据库表空间、表、索引、段、视图、存储过程、触发器等。

数据库的逻辑存储结构（表空间等）决定了数据库的物理空间是如何被使用的，数据库对象如表、索引等分布在各个表空间中。

Oracle数据库的物理结构从操作系统一级查看，是由一个个的文件组成，从物理上可划分为：

数据文件、日志文件、控制文件和参数文件。

数据文件中存放了所有的数据信息;日志文件存放数据库运行期间产生的日志信息，它被重复覆盖使用，假如不采用归档方式的话，已被覆盖的日志信息将无法恢复；控制文件记录了整个数据库的关键结构信息，它假如被破坏，整个数据库将无法工作和恢复；参数文件中设置了很多Oracle数据库的配置参数，当数据库启动时，会读取这些信息。

逻辑结构的优化

逻辑结构优化用通俗的话来说就是通过增加、减少或调整逻辑结构来提高应用的效率，下面通过对根本表的设计与索引、聚簇的讨论来分析ORACLE逻辑结构的优化。

1、根本表扩展:

数据库性能包括存储空间需求量的大小和查询响应时间的长短两个方面。

为了优化数据库性能，需要对数据库中的表进展规X化。

一般来说，逻辑数据库设计满足第三X式的表结构容易维护且根本满足实际应用的要求。

所以，实际应用中一般都按照第三X式的标准进展规X化，从而保证了数据库的一致性和完整性，设计人员往往会设计过多的表间关联，以尽可能地降低数据冗余。

但在实际应用中这种做法有时不利于系统运行性能的优化:

如过程从多表获取数据时引发大量的连接操作，在需要局部数据时要扫描整个表等，这都消耗了磁盘的I/O和CPU时间。

为解决这一问题，在设计表时应同时考虑对某些表进展反规X化，方法有以下几种：

一是分割表。

分割表可分为水平分割表和垂直分割表两种:

水平分割是按照行将一个表分割为多个表，这可以提高每个表的查询速度，但查询、更新时要选择不同的表，统计时要汇总多个表，因此应用程序会更复杂。

垂直分割是对于一个列很多的表，假如某些列的访问频率远远高于其它列，就可以将主键和这些列作为一个表，将主键和其它列作为另外一个表。

通过减少列的宽度，增加了每个数据页的行数，一次I/O就可以扫描更多的行，从而提高了访问每一个表的速度。

但是由于造成了多表连接，所以应该在同时查询或更新不同分割表中的列的情况比拟少的情况下使用。

二是保存冗余列。

当两个或多个表在查询中经常需要连接时，可以在其中一个表上增加假如干冗余的列，以防止表之间的连接过于频繁，一般在冗余列的数据不经常变动的情况下使用。

三是增加派生列。

派生列是由表中的其它多个列的计算所得，增加派生列可以减少统计运算，在数据汇总时可以大大缩短运算时间。

因此，在数据库的设计中，数据应当按两种类别进展组织：

频繁访问的数据和频繁修改的数据。

对于频繁访问但是不频繁修改的数据，内部设计应当物理不规X化。

对于频繁修改但并不频繁访问的数据，内部设计应当物理规X化。

有时还需将规X化的表作为逻辑数据库设计的根底，然后再根据整个应用系统的需要，物理地非规X化数据。

规X与反规X都是建立在实际的操作根底之上的约束，脱离了实际两者都没有意义。

只有把两者合理地结合在一起，才能相互补充，发挥各自的优点。

2、索引和聚簇:

创建索引是提高检索效率最有效的方法之一，索引把表中的逻辑值映射到安全的RowID，能快速定位数据的物理地址，可以大大加快数据库的查询速度，一个建有合理索引的数据库应用系统可能比一个没有建立索引的数据库应用系统效率高几十倍，但并不是索引越多越好，在那些经常需要修改的数据列上建立索引，将导致索引B*树的不断重组，造成系统性能的下降和存储空间的浪费。

对于一个大型表建立的索引，有时并不能改善数据查询速度，反而会影响整个数据库的性能。

这主要是和SGA的数据管理方式有关，Oracle在进展数据块高速缓存管理时，索引数据比普通数据具有更高的驻留权限，在进展空间竞争时，Oracle会先移出普通数据，对建有索引的大型表进展数据查询时，索引数据可能会用完所有的数据块缓存空间，Oracle不得不频繁地进展磁盘读写来获取数据，所以，在对一个大型表进展分区之后，可以根据相应的分区建立分区索引。

Oracle提供了另一种方法来提高查询速度，就是聚簇（Cluster）。

所谓聚簇，简单地说就是把几个表放在一起，按一定公共属性混合存放。

聚簇根据共同码值将多个表的数据存储在同一个Oracle块中，这时检索一组Oracle块就同时得到两个表的数据，这样就可以减少需要存储的Oracle块，从而提高应用程序的性能。

对于逻辑结构的优化，还应将表数据和索引数据分开表空间存储，分别使用独立的表空间。

因为如果将表数据和索引数据放在一起，表数据的

展开阅读全文