《编译原理》实验指导书1524.docx
《《编译原理》实验指导书1524.docx》由会员分享,可在线阅读,更多相关《《编译原理》实验指导书1524.docx(32页珍藏版)》请在冰豆网上搜索。
《编译原理》实验指导书1524
《编译原理》实验指导书
适用专业:
计算机科学与技术
网络工程
软件工程
物联网工程
编写者:
编译原理课程组
修订时间:
2015年9月
一、
课程的教学目标
本课程融验证性实验与创新设计实验于一体,使学生把构造程序语言编译系统的基本原理和技术应用于实践,掌握设计和构造程序语言编译系统的工作框架和开发实现过程,增强学生开发较大型系统软件的能力。
通过对一个常用高级程序设计语言的简单语言子集编译系统中词法分析、语法分析、语义处理模块的设计、开发,掌握实际编译系统的核心结构、工作流程及其实现技术,获得分析、设计、实现编译程序等方面的实际操作能力,增强设计、编写和调试程序的能力。
通过开源编译器分析、编译过程可视化等扩展实验,促进学生增强复杂系统分析、设计和实现能力,鼓励学生创新意识和能力。
二、实验内容
本课程的实验内容分为三个实验项目,词法分析程序设计与实现、语法分析程序设计与实现、语义处理程序设计与实现,总的实验学时为30课时,各项实验学时分配表如表1。
表1:
各项实验学时分配表
实验项目
实验内容
参考实验课时数
1、词法分析程序设计与实现
构造具有关键字、运算符、标识符、无符号常数等单词的词法分析程序。
输入由符合及不符合规定单词类别结构的各类单词组成的源程序。
输出单词串的二元式编码(CLASS,VALUE)。
10
2、语法分析程序设计与实现
将词法分析程序输出的单词串作为输入,针对常见的表达式、赋值语句、条件语句、循环语句等语法成分,选择有代表性的语法分析方法,如递归下降法、算符优先分析、LL
(1)、LR等方法之一,设计实现相应的语法分析程序。
10
3、语义分析程序设计与实现
对各语法单位增加语义子程序,将表达式或可执行语句翻译为四元式序列输出,并能进行错误检查与处理,将错误信息输出。
10
合计
30
每个实验项目包括基本实验部分和扩展实验两部分。
各实验项目的基本实验部分要求每个同学完成,扩展实验部分供实践能力较强的学生选做。
三、实验要求
1、每次实验前学生应详细阅读实验指导书,做好实验的设计和准备工作。
2、独立完成实验,程序书写符合程序书写规范,积极配合实验进度检查和演示。
3、按要求完成实验报告。
不接受不完整的实验报告或者说明与程序、运行结果不符合的作业。
4、实验报告电子版实验报告和源程序在最后一次机时后的一周内上交。
每人上交一个压缩文件,其命名格式为“学号_姓名.rar”(“组长学号_姓名.rar”),内含实验报告和一个命名为“源程序”的文件夹,其中包括一个说明文件和源程序,说明文件描述程序运行环境和使用方法,源程序应是经过调试、测试成功的程序,并应有相应的注释、运行环境和使用方法简介。
四、实验报告
每个人针对所完成的实验内容撰写实验报告,实验报告主要包括三方面内容:
1、实验设计:
实验采用的实现方法和依据,如描述语言的文法及其机内表示,词法分析的单词分类码表、状态转换图或状态矩阵等,语法分析中用到的分析表或优先矩阵等,语法制导翻译中文法的拆分和语义动作的设计编写等;具体的设计结果,应包括整体设计思想和实现算法,程序结构的描述,各部分主要功能的说明,以及所用数据结构的介绍等。
2、程序代码:
实验实现的核心代码源程序清单,要求符合常规的程序书写风格,有详细的注释。
3、实验结果分析:
自行编写若干源程序作为测试用例,对所生成的编译程序进行测试(编译程序的输入与输出以文件的形式给出);运行结果分析(至少包括一个正确和一个错误单词或语句的运行结果);以及改进设想等。
五、考核评价方法
成绩采用五级分制,根据实验完成情况、实验报告、实验过程表现、成果演示情况等方面综合评定。
进行扩展实验,按照完成情况加分。
实验一词法分析程序设计与实现
一、实验目的
通过编写和调试一个词法分析程序,掌握在对程序设计语言的源程序进行扫描的过程中,将字符流形式的源程序转化为一个由各类单词序列的词法分析方法。
二、基本实验内容与要求
假定一种高级程序设计语言中的单词主要包括五个关键字begin、end、if、then、else;标识符;无符号常数;六种关系运算符;一个赋值符和四个算术运算符,试构造能识别这些单词的词法分析程序(各类单词的分类码参见表1)。
输入:
由符合和不符合所规定的单词类别结构的各类单词组成的源程序文件。
输出:
把所识别出的每一单词均按形如(CLASS,VALUE)的二元式形式输出,并将结果放到某个文件中。
对于标识符和无符号常数,CLASS字段为相应的类别码的助记符;VALUE字段则是该标识符、常数的具体值;对于关键字和运算符,采用一词一类的编码形式,仅需在二元式的CLASS字段上放置相应单词的类别码的助记符,VALUE字段则为“空”。
要求:
1、上机前完成词法分析程序的程序流图,并选择好相应的数据结构。
2、用于测试扫描器的实例源文件中至少应包含两行以上的源代码。
3、对于输入的测试用例的源程序文件,词法正确的单词分析结果在输出文件中以二元式形式输出,错误的字符串给出错误提示信息。
例如,若输入文件中的内容为:
“ifmyid>=1.5E−2+100thenx:
=y”,则输出文件中的内容应为:
(IF,)
(ID,’myid’)
(GE,)
(UCON,0.015)
(PL,)
(UCON,100)
(THEN,)
(ID,’x’)
(IS,)
(ID,’y’)
三、实现方法
1、一般实现方法说明
词法分析是编译程序的第一个处理阶段,可以通过两种途径来构造词法分析程序。
其一是根据对语言中各类单词的某种描述或定义(如BNF),用手工的方式(例如可用C语言)构造词法分析程序。
一般地,可以根据文法或状态转换图构造相应的状态矩阵,该状态矩阵连同控制程序一起便组成了编译器的词法分析程序;也可以根据文法或状态转换图直接编写词法分析程序。
构造词法分析程序的另外一种途径是所谓的词法分析程序的自动生成,即首先用正规式对语言中的各类单词符号进行词型描述,并分别指出在识别单词时,词法分析程序所应进行的语义处理工作,然后由一个所谓词法分析程序的构造程序对上述信息进行加工。
如美国BELL实验室研制的LEX就是一个被广泛使用的词法分析程序的自动生成工具。
总的来说,开发一种新语言时,由于它的单词符号在不停地修改,采用LEX等工具生成的词法分析程序比较易于修改和维护。
一旦一种语言确定了,则采用手工编写词法分析程序效率更高。
本实验建议使用手工编写的方法。
在一个程序设计语言中,一般都含有若干类单词符号,为此可首先为每类单词建立一张状态转换图,然后将这些状态转换图合并成一张统一的状态图,即得到了一个有限自动机,再进行必要的确定化和状态数最小化处理,最后添加当进行状态转移时所需执行的语义动作,就可以据此构造词法分析程序了。
1、单词分类
为了使词法分析程序结构比较清晰,且尽量避免某些枝节问题的纠缠,我们假定要编译的语言中,全部关键字都是保留字,程序员不得将它们作为源程序中的标识符;在源程序的输入文本中,关键字、标识符、无符号常数之间,若未出现关系和算术运算符以及赋值符,则至少须用一个空白字符加以分隔。
作了这些限制以后,就可以把关键字和标识符的识别统一进行处理。
即每当开始识别一个单词时,若扫视到的第一个字符为字母,则把后续输入的字母或数字字符依次进行拼接,直至扫视到非字母、数字字符为止,以期获得一个尽可能长的字母数字字符串,然后以此字符串查所谓保留字表(此保留字表要事先造好),若查到此字符串,则取出相应的类别码;反之,则表明该字符串应为一标识符。
表1语言中的各类单词符号及其分类码表
单词符号
类别编码
类别码的助记符
单词值
begin
1
BEGIN
end
2
END
if
3
IF
then
4
THEN
else
5
ELSE
标识符
6
ID
字母打头的字母数字串
无符号常数
7
UCON
机内二进制表示
<
8
LT
<=
9
LE
=
10
EQ
<>
11
NE
>
12
GT
>=
13
GE
:
=
14
IS
+
15
PL
-
16
MI
*
17
MU
/
18
DI
采用上述策略后,针对表1中的部分单词可以参考图1和程序1,用C语言编写出符合以上几项要求的一个扫描器程序。
2、词法分析器的设计
图1识别表I所列语言中的部分单词的DFA及相关的语义过程
图1中所出现的语义变量及语义函数的含义和功能说明如下:
函数GETCHAR:
每调用一次,就把扫描指示器当前所指示的源程序字符送入字符变量ch,然后把扫描指示器前推一个字符位置。
字符数组TOKEN:
用来依次存放一个单词词文中的各个字符。
函数CAT:
每调用一次,就把当前ch中的字符拼接于TOKEN中所存字符串的右边。
函数LOOKUP:
每调用一次,就以TOKEN中的字符串查保留字表,若查到,就将相应关键字的类别码赋给整型变量c;否则将c置为零。
函数RETRACT:
每调用一次,就把扫描指示器回退一个字符位置(即退回多读的那个字符)。
函数OUT:
一般仅在进入终态时调用此函数,调用的形式为OUT(c,VAL)。
其中,实参c为相应单词的类别码助记符;实参VAL为TOKEN(即词文)或为空串。
函数OUT的功能是,在送出一个单词的内部表示之后,返回到调用该词法分析程序的那个程序。
3、词法分析程序的实现
程序1根据图1编写的扫描器
#include
#include
#include
#defineID6
#defineINT7
#defineLT8
#defineLE9
#defineEQ10
#defineNE11
#defineGT12
#defineGE13
charTOKEN[20];
externintlookup(char*);
externvoidout(int,char*);
externreport_error(void);
voidscanner_example(FILE*fp)
{
charch;inti,c;
ch=fgetc(fp);
if(isalpha(ch))/*itmustbeaidentifer!
*/
{
TOKEN[0]=ch;ch=fgetc(fp);i=1;
while(isalnum(ch))
{
TOKEN[i]=ch;i++;
ch=fgetc(fp);
}
TOKEN[i]=′\0′
fseek(fp,-1,1);/*retract*/
c=lookup(TOKEN);
if(c==0)out(ID,TOKEN);elseout(c,"");
}
else
if(isdigit(ch))
{
TOKEN[0]=ch;ch=fgetc(fp);i=1;
while(isdigit(ch))
{
TOKEN[i]=ch;i++;
ch=fgetc(fp);
}
TOKEN[i]=′\0′;
fseek(fp,-1,1);
out(INT,TOKEN);
}
else
switch(ch)
{
case′<′:
ch=fgetc(fp);
if(ch==′=′)out(LE,"");
elseif(ch==′>′)out(NE,"");
else
{
fseek(fp,-1,1);
out(LT,"");
}
break;
case′=′:
out(EQ,"");break;
case′>′:
ch=fgetc(fp);
if(ch==′=′)out(GE,"");
else
{
fseek(fp,-1,1);
out(GT,"");
}
break;
default:
report_error();break;
}
return;
}
程序1中所用的若干函数以及主程序有待于具体编写,并需事先建立好保留字表,以备查询。
例如:
/*建立保留字表*/
#defineMAX_KEY_NUMBER20/*关键字的数量*/
#defineKEY_WORD_END“waitingforyourexpanding”/*关键字结束标记*/
char*KeyWordTable[MAX_KEY_NUMBER]={“begin”,“end”,“if”,“then”,“else”,KEY_WORD_END};
/*查保留字表,判断是否为关键字*/
intlookup(char*token)
{
intn=0;
while(strcmp(KeyWordTable[n],KEY_WORD_END))/*strcmp比较两串是否相同,若相同返回0*/
{
if(!
strcmp(KeyWordTable[n],token))/*比较token所指向的关键字和保留字表中哪个关键字相符*/
{
returnn+1;/*根据单词分类码表I,设置正确的关键字类别码,并返回此类别码的值*/
break;
}
n++;
}
return0;/*单词不是关键字,而是标识符*/
}
4、无符号常数的识别
注意按照本实验题目的具体要求,需要将图1和程序1中整常数的识别扩展为无符号常数,以满足题目的要求。
关于无符号数的文法可参见图2,表2和程序2。
描述无符号数的右线性文法G1[<无符号数>]如下:
〈无符号数〉→d〈余留无符号数〉
〈无符号数〉→·〈小数部分〉
〈无符号数〉→d
〈余留无符号数〉→d〈余留无符号数〉
〈余留无符号数〉→·〈十进小数〉
〈余留无符号数〉→E〈指数部分〉
〈余留无符号数〉→d
〈余留无符号数〉→·
〈十进小数〉→E〈指数部分〉
〈十进小数〉→d〈十进小数〉
〈十进小数〉→d
〈小数部分〉→d〈十进小数〉
〈小数部分〉→d
〈指数部分〉→d〈余留整指数〉
〈指数部分〉→+〈整指数〉
〈指数部分〉→-〈整指数〉
〈指数部分〉→d
〈整指数〉→d〈余留整指数〉
〈整指数〉→d
〈余留整指数〉→d〈余留整指数〉
〈余留整指数〉→d
图2所示为上述文法的状态转换图,其中编号0、1、2、…、6分别代表非终结符号<无符号数>、<余留无符号数>、<十进小数>、<小数部分>、<指数部分>、<整指数>及<余留整指数>。
图2文法G1[<无符号数>]的状态转换图
无符号数识别中的语义处理方法见嵌入了语义动作的状态矩阵表2,其功能是在扫描源程序字符串的过程中,把识别出的字符串形式的无符号数的值,逐步转换为相应的二进制整数(ICON)或二进制浮点数(FCON)的内部形式。
(注:
考虑能否采用C语言的库函数实现此语义处理工作;是否可将无符号常数这一类单词进一步细分成整型常数和浮点型常数两类单词。
)
根据表2I所示的加入了语义过程说明的识别无符号数的状态矩阵,编写词法分析程序,部分实现代码如程序二所示。
表2包含语义处理过程的识别无符号数的状态矩阵
程序2单词分类码为UCON的无符号数的识别程序
1#include
2#include
3#include
4
5#defineDIGIT1
6#definePOINT2
7#defineOTHER3
8#definePOWER4
9#definePLUS5
10#defineMINUS6
11#defineUCON7//Supposetheclassnumberofunsignedconstantis7
12#defineClassOther200
13#defineEndState-1
14intw,n,p,e,d;
15intClass;//Usedtoindicateclassoftheword
16intICON;
17floatFCON;
18staticintCurrentState;//Usedtopresentcurrentstate,theinitialvalue:
0
19
20intGetChar(void);
21intEXCUTE(int,int);
22intLEX(void);
23intHandleOtherWord(void)
24{returnClassOther;
25}
26intHandleError(void)
27{printf("Error!
\n");return0;}
28
29intGetChar(void)
30{
31intc;
32c=getchar();
33if(isdigit(c)){d=c-′0′;returnDIGIT;}
34if(c==′.′)returnPOINT;
35if(c==′E′||c==′e′)returnPOWER;
36if(c==′+′)returnPLUS;
37if(c==′-′)returnMINUS;
38returnOTHER;
39}
40intEXCUTE(intstate,intsymbol)
41{
42switch(state)
43{
44case0:
switch(symbol)
45{
46caseDIGIT:
n=0;p=0;e=1;w=d;CurrentState=1;Class=UCON;break;
47casePOINT:
w=0;n=0;p=0;e=1;CurrentState=3;Class=UCON;break;
48default:
HandleOtherWord();Class=ClassOther;
49CurrentState=EndState;
50}
51break;
52case1:
switch(symbol)
53{
54caseDIGIT:
w=w*10+d;break;//CurrentState=1
55casePOINT:
CurrentState=2;break;
56casePOWER:
CurrentState=4;break;
57default:
ICON=w;CurrentState=EndState;
58}
59break;
60case2:
switch(symbol)
61{
62caseDIGIT:
n++;w=w*10+d;break;
63casePOWER:
CurrentState=4;break;
64default:
FCON=w*pow(10,e*p-n);CurrentState=EndState;
65}
66break;
67case3:
switch(symbol)
68{
69caseDIGIT:
n++;w=w*10+d;CurrentState=2;break;
70default:
HandleError();CurrentState=EndState;
71}
72break;
73case4:
switch(symbol)
74{
75caseDIGIT:
p=p*10+d;CurrentState=6;break;
76caseMINUS:
e=-1;CurrentState=5;break;
77casePLUS:
CurrentState=5;break;
78default:
HandleError();CurrentState=EndState;
79}
80break;
81case5:
switch(symbol)
82{
83caseDIGIT:
p=p*10+d;CurrentState=6;break;
84default:
HandleError();CurrentState=EndState;
85}
86break;
87case6:
switch(symbol)
88{
89case:
DIGIT:
p=p*10+d;break;
90default:
FCON=w*pow(10,e*p-n);CurrentState=EndState;
91}
92break;
93}
94returnCurrentState;
95}
96intLEX(void)
97{
98intch;
99CurrentState=0;
100while(CurrentState!
=EndState)
101{
102ch=GetChar();
103EXCUTE(CurrentState,ch);
104}
105returnClass;
106}
四、扩展实验
1、对基本实验内容进行扩充,在词法分析过程中建立变量名表,以备后续的编译过程查询;扩充关键字的数目、增加逻辑运算符等单词类别、将常数再细分成字符串常量、整型常量和实型常量等;添加词法分析中单词出错的位置和错误类型,以及删除注释部分等。
2、对基本实验内容进行扩充,增加状态转换图显示、词法分析过程的显示等可视化展现功能。
3、研读GCC,CLANG等开源编译器的词法分析部分,分析其程序结构、实现方法、识别的单词分类等。
4、其它自选题目。
注意自选扩展实验须经过实验指导教师同意并备案。
实验二语法分析程序设计与实现
一、实验目的
任选一种有代表性的语法分析方法,如算符优先法、递归下降法、LL
(1)、SLR
(1)、LR
(1)等,通过设计、编制、调试实现一个典型的语法分析程序,对实验一所得扫描器提供的单词序列进行语法检查和结构分析,实现并进一步掌握常用的语法分析方法。
二、基本实验内容与要求
选择对各种常见高级程序设计语言都较为通用的语法结构——算术表达式的一个简化子集——作为分析对象,根据如下描述其语法结构的BNF定义G2[<算术表达式>],任选一种学过的语法分析方法,针对运算对象为无符号常数和变量的四则运算,设计并实现一个语法分析程序。
G2[<算术表达式>]:
<算术表达式>→<项>|<算术表达式>+<项>|<算术表达式>-<项>
<项>→<因式>|<项>*<因式>|<项>/<因式>
<因式>→<运算对象>|(<算术表达式>)
若将语法范畴<算术表达式>、<项>、<因式>和<运算对象>分别用E、T、F和i代表,则G2可写成:
G2[E]