1、数据结构与排序一.数据结构知识 数据结构是计算机软件的一门基础课程,计算机科学各个领域及有关的应用软件都要用到各种数据结构语言编译要使用栈、散列表及语法树;操作系统中用队列、存储管理表及目录树等;数据库系统运用线性表、多链表及索引树等进行数据管理;而在人工智能领域,依求解问题性质的差异将涉及到各种不同的数据结构,如广义表、集合、搜索树及各种有向图等等。学习数据结构目的是要熟悉一些最常用的数据结构,明确数据结构内在的逻辑关系,知道它们在计算机中的存储表示,并结合各种典型应用说明它们在进行各种操作时的动态性质及实际的执行算法,进一步提高软件计和编程水平。通过对不同存储结构和相应算法的对比,增强我们
2、根据求解问题的性质选择合理的数据结构,并将问题求解算法的空间、时间及复杂性控制在一定范围的能力。 软件设计师考试大纲对数据结构部分的要求是熟练掌握常用数据结构和常用算法,因此,本专题从数据结构的概述出发,对基本的概念引出常用的数据结构类型的介绍和讲解,同时在讲解各种数据结构中间采用算法与数据结构相结合的方式,在算法步骤中使用数据结构,对数据结构的重点、难点进行了分析,最后讲解了与数据结构紧密相关的排序和查找算法,以及一些以往考试题的分析。 1. 数据结构概述 数据结构研究了计算机需要处理的数据对象和对象之间的关系;刻画了应用中涉及到的数据的逻辑组织;也描述了数据在计算机中如何存储、传送、转换。
3、 学习数据结构注意的问题: n 系统掌握基本数据结构的特点及其不同实现。 n 了解并掌握各种数据结构上主要操作的实现及其性能(时间、空间)的分析。 n 掌握各种数据结构的使用特性,在算法设计中能够进行选择。 n 掌握常用的递归、回溯、迭代、递推等方法的设计 n 掌握自顶向下、逐步求精的程序设计方法。 n 掌握自顶向下、逐步求精的程序设计方法。 在学习数据结构的知识之前,我们要了解一下数据结构中的基本概念。 数据:对客观事物的符号表示,在计算机中就是指所有能输入到计算机中并被计算机程序所处理的符号的总称。 数据项: 是数据的不可分割的最小单位; 数据元素:是数据的基本单位,在计算机程序中通常作为
4、一个整体进行处理;一个数据元素可由若干个数据项组成。 数据对象:是性质相同的数据元素的集合,是数据的一个子集。 数据结构上的基本操作: 插入操作 删除操作 更新操作 查找操作 排序操作 数据结构是指数据对象及相互关系和构造方法,一个数据结构B形式上可以用一个二元组表示为B=(A,R)。其中,A是数据结构中的数据(称为结点)的非空有限集合,R是定义在A上的关系的非空有限集合。 根据数据元素之间的关系的不同特性,通常有下列4类基本结构。 集合结构中的数据元素除了“同属于一个集合”的关系外,别无其他关系。 线性结构结构中的数据元素之间存在一个对一个的关系。 树形结构结构中的元素之间存在一个对多个的关
5、系。 图状结构或网状结构结构中的元素之间存在多个对多个的关系。 数据结构中,结点与结点间的相互关系是数据的逻辑结构。数据结构在计算机中的表示(又称为映象)称为数据的物理结构,也称存储结构。 数据元素之间的关系在计算机中有两种不同的表示方式:顺序映象和非顺序映象,并由此得到两种不同的存储结构:顺序存储结构和链式存储结构。 任何一个算法的设计取决于选定的数据(逻辑)结构,而算法的实现依赖于采用的存储结构。 数据的逻辑结构分为两类: 线性结构:线性表、栈、队列和串 非线性结构:树、图 数据的存储方法有四类: 顺序存储方法 链接存储方法 索引存储方法 散列存储方法 2. 常用数据结构 2.1线性表 在
6、数据结构中,线性结构常称为线性表,是最简单、最常用的一种数据结构,它是由n个相同数据类型的结点组成的有限序列。 其特点是:在数据元素的非空有限集合中, 存在唯一的一个被称做“第一个”的数据元素 存在唯一的一个被称做“最后一个”的元素数据元素 除第一个之外,集合中的每个数据元素均只有一个前驱 除最后一个之外,集合中每个数据元素均只有一个后继 一个由n个结点e0,e1,en-1组成的线性表记为:(e0,e1,en-1)。线性表的结点个数称为线性表的长度,长度为0的线性表称为空的线性表,简称空表。对于非空线性表,e0是线性表的第一个结点,en-1是线性表的最后一个结点。线性表的结点构成了一个序列,对
7、序列中两个相邻结点ei和ei-1,称前者是后者的前驱结点,后者是前者的后继结点。 线性表最重要的性质是线性表中结点和相对位置是确定的。 线性表的结点也称为表元,或称为记录,要求线性表的结点一定是同一类型的数据。线性表的结点可由若干个成分组成,其中唯一标识表元的成分成为关键字,简称键。 线性表是一个相当灵活的数据结构,它的长度可以根据需要增长或缩短。对线性表的基本运算如下: INITIATE(L)初始化操作 LENGTH(L) 求长度函数 GET(L,i) 取元素函数 PRIOR(L,elm)求前驱函数 NEXT(L,elm) 求后继函数 LOCATE(L,x) 定位函数 INSERT(L,i,
8、b)插入操作 DELETE(L,i) 删除操作 有多种存储方式能将线性表存储在计算机内,其中最常用的是顺序存储和链接存储。根据存储方式的不同,其上述的运算实现也不一样。 顺序存储:是最简单的存储方式,其特点是逻辑关系上相邻的两个元素在物理位置上也相邻。通常使用一个足够大的数组,从数组的第一个元素开始,将线性表的结点依次存储在数组中。 顺序存储方式优点:能直接访问线性表中的任意结点。 线性表的第i个元素ai的存储位置可以使用以下公式求得: LOC(ai)=LOC(a1)+(i-1)*l 式中LOC(a1)是线性表的第一个数据元素a1的存储位置,通常称做线性表的起始位置或基地址。 顺序存储的缺点:
9、 1) 线性表的大小固定,浪费大量的存储空间,不利于节点的增加和减少; 2) 执行线性表的插入和删除操作要移动其他元素,不够方便; 链式存储 线性表链接存储是用链表来存储线性表,。 单链表(线性链表): 从链表的第一个表元开始,将线性表的结点依次存储在链表的各表元中。链表的每个表元除要存储线性表结点的信息以外,还要有一个成分来存储其后继结点的指针。 线性链表的特点是:每个链表都有一个头指针,整个链表的存取必须从头指针开始,头指针指向第一个数据元素的位置,最后的节点指针为空。当链表为空时,头指针为空值;链表非空时,头指针指向第一个节点。 链式存储的缺点: 1) 由于要存储地址指针,所以浪费空间;
10、 2) 直接访问节点不方便; 3) 4) 5) 6) 7) 循环链表: 循环链表是另一种形式的链式存储结构,是单链表的变形。它的特点就是表中最后一个结点的指针域指向头结点,整个链表形成一个环。因此,从表中任意一个结点出发都可以找到表中的其他结点。 循环链表和单向链表基本一致,差别仅在于算法中循环的条件不是结点的指针是否为空,而是他们的指针是否等于头指针, 循环链表最后一个结点的 link 指针不为 0 (NULL),而是指向了表的前端。 为简化操作,在循环链表中往往加入表头结点。 循环链表的特点是:只要知道表中某一结点的地址,就可搜寻到所有其他结点的地址。 循环链表的示例: 带表头结点的循环链
11、表 : 双向链表: 双向链表是另一种形式的链式结构,双向链表的结点中有两个指针域,其一指向直接后继,另一指向直接前趋。双向链表克服了单链表的单向性的缺点。 前驱方向 后继方向 双向链表也可以有循环表,链表中存在两个环。一个结点的前趋的后继和该结点的后继的前趋都是指向该结点的。 p = plLinkrLink = prLinklLink 2.2 栈 栈(Stack)是限定仅在表尾进行插入或删除操作的线性表。表尾端称栈顶(top),表头端称栈底(bottom)。 若有栈 S=(s0,s1,sn-1)则s0为栈底结点,sn-1为栈顶结点。通常称栈的结点插入为进栈,栈的结点删除为出栈。因为最后进栈的结
12、点必定最先出栈,所以栈具有后进先出的特点。可以用一下一个图形来形象的表示: 栈有两种存储结构:顺序栈和链栈 顺序栈即栈的顺序存储结构是,利用一组地址连续的存储单元依次存放自栈底到栈顶的数据元素,同时设指针top指示栈顶元素的当前位置。 栈也可以用链表实现,链式存储结构的栈简称链栈。若同时需两个以上的栈,则最好采用这种结构。对于栈上的操作,总结如下,大家可以仔细看一下这些程序,一个大的程序都是由一些对数据结构的小的操作组成的。 顺序存储的栈的基本操作如下: 判断栈满: int stackfull(seqstack *s) return (s-top= =stacksize-1); 进栈: voi
13、d push(seqstack *s,datatype x) if (stackfull(s) error(“stack verflow”); s-data+s-top=x; 判断栈空: int stackempty(seqstack *s) return (s-top= = -1) 出栈: datatype pop(seqstack *s) if (stackempty(s) error(“stack underflow”); x=s-datatop; s-top-; return (x); 链接存储栈:用链表实现的栈,链表第一个元素是栈顶元素,链表的末尾是栈底节点,链表的头指针就是栈顶指针
14、,栈顶指针为空则是空栈。若同时需要两个以上的栈,最好采用链表作存储结构 链接存储的栈的操作如下: 进栈: Void push(linkstack *p,datatype x) stacknode *q q=(stacknode*)malloc(sizeof(stacknode); qdata=x; qnext=ptop; ptop=q; 出栈: Datatype pop(linkstack *p) datatype x; stacknode *q=ptop; if(stackempty(p) error(“stack underflow.”); x=qdata; ptop=qnext; fre
15、e(q); return x; 多栈处理 栈浮动技术: n 个栈共享一个数组空间Vm n设立栈顶指针数组 t n+1 和 栈底指针数组 b n+1 ,ti和bi分别指示第 i 个栈的栈顶与栈底,bn作为控制量,指到数组最高下标 各栈初始分配空间 s = m/n指针初始值 t0 = b0 = -1 bn = m-1 ti = bi = bi-1 + s, i = 1, 2, , n-1 2.3队列 队列是只允许在一端进行插入,另一端进行删除运算的线性表。允许删除的那一端称为队首(front),允许插入运算的另一端称为队尾(rear)。通常称队列的结点插入为进队,队列的结点删除为出队。若有队列 Q
16、=(q0,q1,qn-1)则q0为队首结点,qn-1为队尾结点。因最先进入队列的结点将最先出队,所以队列具有先进先出的特性。 可以用顺序存储线性表来表示队列,也可以用链表实现,用链表实现的队列称为链队列。 队列操作: int push(PNODE *top,int e)是进栈函数,形参top是栈顶指针的指针,形参e是入栈元素。 int pop(PNODE *top,int oe)是出栈函数,形参top是栈顶指针的指针,形参e作为返回出栈元素使用。 int enQueue(PNODE *tail,int e)是入队函数,形参tail是队尾指针的指针,形参e是入队元素。 int deQueue(P
17、NODE *tail,int *e)是出队函数,形参tail是队尾指针的指针,形参e作为返回出队元素使用。 定义结点的结构如下: typedef struct node int value; struct node *next; NODE,*PNODE; 函数 int push(PNODE *top,int e) PNODE p = (PNODE)malloc(sizeof(NODE); if(!p) return 1; p-value = e; p-next = *top; /指向栈顶指针 *top = p; return 0; 函数 int pop(PNODE *top,int *e) P
18、NODE p = *top; if(p = NULL) return 1; *e = p-value; *top = p-next; /栈顶指向取出的数的指针 free(p); return 0; 函数 int enQueue(PNODE *tail,int e) PNODE p,t; t = *tail; p = (PNODE)malloc(sizeof(NODE); if(!p) return l; pvalue = e; pnext = tnext; t-next = p; /将元素加在尾指针后 *tail = p; return 0; 函数 int deQueue(PNODE *tai
19、l,int e) PNODE p,q; if(*tail)-next = *tail) return 1;/队列已经空 p = (*tail)-next; /p获得尾指针 q = p-next; e = q-value; p-next = q-next; if(*tail = q) *tail = p ; /尾指针指向最后节点 free(q); return 0; ) 循环队列 (Circular Queue): 存储队列的数组被当作首尾相接的表处理。 队头、队尾指针加1时从maxSize -1直接进到0,可用语言的取模(余数)运算实现。 队头指针进1: front = (front + 1)
20、 % maxSize; 队尾指针进1: rear = (rear + 1) % maxSize; 队列初始化:front = rear = 0; 队空条件:front = rear; 队满条件:(rear + 1) % maxSize = front 循环队列的进队和出队: 优先级队列:是不同于先进先出队列的另一种队列。每次从队列中取出的是具有最高优先权的元素 2.4 串 字符串是非数值处理应用中重要的处理对象。字符串是由某字符集上的字符所组成的任何有限字符序列。 当一个字符串不包含任何字符时,称它为空字符串。一个字符串所包含的有效字符个数称为这个字符串的长度。一个字符串中任一连续的子序列称为
21、该字符串的子串。包含子串的字符串相应称为主串。通常称该字符在序列中的序号为该字符在串中的位置。 字符串的串值必须用单引号括, c1c2c3cn起来,但单引号本身不属于串,它的作用是为了避免于变量名和数的常量混淆。在C语言中,字符串常量是用一对双引号括住若干字符来表示,如“I am a student” 字符串通常存于字符数组中,每个字符串最后一个有效字符后跟一个字符串结束符“/0”.系统提供的库函数形成的字符串会自动加结束符号,而用户的应用程序中形成的字符串必须由程序自行负责添加字符串结束符号。 两个串相等当且仅当两个串的值相等,长度相等并且各个对应位置的字符都相等。 常用的字符串的基本操作有
22、7种。 ASSING(s,t)和CREAT(s,ss)赋值操作 EQUAL(s,t)判等函数 LENGTH(s)求长度函数 CONCAT(s,t)联接函数 SUBSTR(s,start,len)求子串函数 INDEX(s,t)定位函数 REPLACE(s,t,v)置换函数 INSERT(s,pos,t)插入函数 DELETE(s,pos,t)删除函数 (1)求字符串长,int strlen(char s) (2)串复制(copy) char *strcpy(char to,char from); 该函数将串from复制到串to中,并且返回一个指向串to的开始处的指针。 (3)联接(concat
23、enation) char strcat(char to,char from) 该函数将串from复制到串to的末尾,并且返回一个指向串to的开始处的指针。 (4)串比较(compare) int strcmp(chars1,char s2); 该函数比较串s1和串s2的大小,当返回值小于0,等于0或大于0时分别表示s1s2 例如:result=strcmp(“baker”,”Baker”) result0 result=strcmp(“12”,”12”); result=0 result=strcmp(“Joe”,”Joseph”); result1时,元素ai,j=0。 LOC(i,j)=LOC(0,0)+3*i-1+(j-i+1) =LOC
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1