《编译原理》实验指导书Word文档格式.docx
《《编译原理》实验指导书Word文档格式.docx》由会员分享,可在线阅读,更多相关《《编译原理》实验指导书Word文档格式.docx(13页珍藏版)》请在冰豆网上搜索。
其一是根据对语言中各类单词的某种描述或定义(如BNF),用手工的方式(例如可用C语言)构造词法分析程序。
一般地,可以根据文法或状态转换图构造相应的状态矩阵,该状态矩阵同控制程序便组成了编译器的词法分析程序;
也可以根据文法或状态转换图直接编写词法分析程序。
构造词法分析程序的另外一种途径是所谓的词法分析程序的自动生成,即首先用正规式对语言中的各类单词符号进行词型描述,并分别指出在识别单词时,词法分析程序所应进行的语义处理工作,然后由一个所谓词法分析程序的构造程序对上述信息进行加工。
如美国BELL实验室研制的LEX就是一个被广泛使用的词法分析程序的自动生成工具。
总的来说,开发一种新语言时,由于它的单词符号在不停地修改,采用LEX等工具生成的词法分析程序比较易于修改和维护。
一旦一种语言确定了,则采用手工编写词法分析程序效率更高。
四、基本实验题目
1)题目1:
试用手工编码方式构造识别以下给定单词的某一语言的词法分析程序。
语言中具有的单词包括五个有代表性的关键字begin、end、if、then、else;
标识符;
整型常数;
六种关系运算符;
一个赋值符和四个算术运算符。
参考实现方法简述如下。
单词的分类:
构造上述语言中的各类单词符号及其分类码表。
表I语言中的各类单词符号及其分类码表
单词符号
类别编码
类别码的助记符
单词值
begin
1
BEGIN
end
2
END
if
3
IF
then
4
THEN
else
5
ELSE
标识符
6
ID
字母打头的字母数字串
整常数
7
INT
数字串
<
8
LT
=
9
LE
10
EQ
>
11
NE
12
GT
13
GE
:
14
IS
+
15
PL
-
16
MI
*
17
MU
/
18
DI
处理过程:
在一个程序设计语言中,一般都含有若干类单词符号,为此可首先为每类单词建立一张状态转换图,然后将这些状态转换图合并成一张统一的状态图,即得到了一个有限自动机,再进行必要的确定化和状态数最小化处理,最后据此构造词法分析程序。
在此为了使词法分析程序结构比较清晰,且尽量避免某些枝节问题的纠缠,假定要编译的语言中,全部关键字都是保留字,程序员不得将它们作为源程序中的标识符;
在源程序的输入文本中,关键字、标识符、整常数之间,若未出现关系和算术运算符以及赋值符,则至少须用一个空白字符加以分隔。
作了这些限制以后,就可以把关键字和标识符的识别统一进行处理。
即每当开始识别一个单词时,若扫视到的第一个字符为字母,则把后续输入的字母或数字字符依次进行拼接,直至扫视到非字母、数字字符为止,以期获得一个尽可能长的字母数字字符串,然后以此字符串查所谓保留字表(此保留字表已事先造好),若查到此字符串,则取出相应的类别码;
反之,则表明该字符串应为一标识符。
采用上述策略后,针对表I中部分单词可以构造一个如图1所示的有限自动机(以状态转换图表示)。
在图1中添加了当进行状态转移时,词法分析程序应执行的语义动作。
根据图1,可用C语言编写出符合以上几项要求的一个相应的扫描器程序,如程序一所示。
图1识别表I所列语言中的部分单词的DFA及相关的语义过程
图1及程序一中所出现的语义变量及语义函数的含义和功能说明如下。
函数GETCHAR:
每调用一次,就把扫描指示器当前所指示的源程序字符送入字符变量ch,然后把扫描指示器前推一个字符位置。
字符数组TOKEN:
用来依次存放一个单词词文中的各个字符。
函数CAT:
每调用一次,就把当前ch中的字符拼接于TOKEN中所存字符串的右边。
函数LOOKUP:
每调用一次,就以TOKEN中的字符串查保留字表,若查到,就将相应关键字的类别码赋给整型变量c;
否则将c置为零。
函数RETRACT:
每调用一次,就把扫描指示器回退一个字符位置(即退回多读的那个字符)。
函数OUT:
一般仅在进入终态时调用此函数,调用的形式为OUT(c,VAL)。
其中,实参c为相应单词的类别码或其助记符;
当所识别的单词为标识符和整数时,实参VAL为TOKEN(即词文分别为字母数字串和数字串),对于其余种类的单词,VAL均为空串。
函数OUT的功能是,在送出一个单词的内部表示之后,返回到调用该词法分析程序的那个程序。
程序一根据图1编写的扫描器
#include<
stdio.h>
ctype.h>
string.h>
#defineID6
#defineINT7
#defineLT8
#defineLE9
#defineEQ10
#defineNE11
#defineGT12
#defineGE13
charTOKEN[20];
externintlookup(char*);
externvoidout(int,char*);
externreport_error(void);
voidscanner_example(FILE*fp)
{
charch;
inti,c;
ch=fgetc(fp);
if(isalpha(ch))/*itmustbeaidentifer!
*/
TOKEN[0]=ch;
ch=fgetc(fp);
i=1;
while(isalnum(ch))
TOKEN[i]=ch;
i++;
}
TOKEN[i]=′\0′
fseek(fp,-1,1);
/*retract*/
c=lookup(TOKEN);
if(c==0)out(ID,TOKEN);
elseout(c,"
"
);
if(isdigit(ch))
ch=fgetc(fp);
while(isdigit(ch))
i++;
ch=fgetc(fp);
TOKEN[i]=′\0′;
out(INT,TOKEN);
switch(ch)
case′<′:
if(ch==′=′)out(LE,"
);
elseif(ch==′>′)out(NE,"
fseek(fp,-1,1);
out(LT,"
break;
case′=′:
out(EQ,"
break;
case′>′:
if(ch==′=′)out(GE,"
out(GT,"
default:
report_error();
return;
提示:
扫描器所用的若干函数以及主程序有待于具体编写,并需事先建立好保留字表,以备查询。
另外,在扫描源程序字符串时,一旦识别出关键字、标识符、整常数以及运算符中之一,即以二元式形式(类别编码,值)输出单词。
每次调用词法分析程序,它均能自动继续扫描下去,形成下一个单词,直至整个源程序全部扫描完毕,并形成相应的单词串形式的源程序。
2)题目2:
将表I单词集中的整常数改为无符号常数,修改题目1中已开发的扫描器。
无符号常数的单词分类码助记符:
UCON;
其值为无符号常数的机内二进制表示。
描述无符号数的BNF定义和状态转换图:
无符号数的文法G如下:
〈无符号数〉→d〈余留无符号数〉
〈无符号数〉→·
〈小数部分〉
〈无符号数〉→d
〈余留无符号数〉→d〈余留无符号数〉
〈余留无符号数〉→·
〈十进小数〉
〈余留无符号数〉→E〈指数部分〉
〈余留无符号数〉→d
〈十进小数〉→E〈指数部分〉
〈十进小数〉→d〈十进小数〉
〈十进小数〉→d
〈小数部分〉→d〈十进小数〉
〈小数部分〉→d
〈指数部分〉→d〈余留整指数〉
〈指数部分〉→+〈整指数〉
〈指数部分〉→-〈整指数〉
〈指数部分〉→d
〈整指数〉→d〈余留整指数〉
〈整指数〉→d
〈余留整指数〉→d〈余留整指数〉
〈余留整指数〉→d
图2所示为上述文法的状态转换图,其中编号0、1、2、…、6分别代表非终结符号<
无符号数>
、<
余留无符号数>
十进小数>
小数部分>
指数部分>
整指数>
及<
余留整指数>
。
图2文法G[<
]的状态转换图
实现无符号数识别的参考方法:
在计算机内实现状态转换图的方法之一,是以状态图中的各个状态为行,以可能输入的各个输入符号为列,组成一个状态矩阵。
其中,矩阵的元素用来指明下一个状态和扫描器应完成的语义动作(如拼接字符、数制转换、查填符号表以及输出单词的内部表示等)。
由于在一个状态矩阵中,通常有许多状态都是出错状态,为了节省存放状态矩阵的存储空间,在具体实现时,常常采用更为紧凑和有效的数据结构。
例如,对于文法G[<
]的状态转换图,可按表II的形式来存放其状态矩阵。
表II中的第一列为各状态Si的编号,第二列分别列出了在每一状态下可能扫视到的输入符号aj(其中“other”是一个符号集合,用来表示在相应状态所属的那一栏中,除其前所列字符之外的全部其它字符),第三列指出当(Si,aj)出现时应执行的语义动作(通常用若干个语句来实现,若其后空,则表示不进行任何处理),最后一栏用来指明下一状态的编号(若其后NULL或“结束”则表示无后继状态)。
状态矩阵中所嵌入的语义动作,其功能是在扫描源程序字符串的过程中,把识别出的字符串形式的无符号数,逐步转换为相应的二进制整数(ICON)或二进制浮点数(FCON)的内部形式,方法见教材第56页。
(注:
考虑能否采用C语言的库函数实现此语义处理工作。
表II包含语义处理过程的识别无符号数的状态矩阵
根据加入语义过程说明的状态转换图直接编写词法分析程序,部分实现代码如下:
程序二单词分类码为UCON的无符号数的识别程序
1#include<
2#include<
3#include<
math.h>
4#defineLETTER0
5#defineDIGIT1
6#definePOINT2
7#defineOTHER3
8#definePOWER4
9#definePLUS5
10#defineMINUS6
11#defineUCON7//Supposetheclassnumberofunsignedconstantis7
12#defineClassOther200
13#defineEndState-1
14intw,n,p,e,d;
15intClass;
//Usedtoindicateclassoftheword
16intICON;
17floatFCON;
18staticintCurrentState;
//Usedtopresentcurrentstate,theinitialvalue:
19
20intGetChar(void);
21intEXCUTE(int,int);
22intLEX(void);
23intHandleOtherWord(void)
24{returnClassOther;
25}
26intHandleError(void)
27{printf("
Error!
\n"
return0;
28
29intGetChar(void)
30{
31intc;
32c=getchar();
33if(isdigit(c)){d=c-′0′;
returnDIGIT;
34if(c==′.′)returnPOINT;
35if(c==′E′||c==′e′)returnPOWER;
36if(c==′+′)returnPLUS;
37if(c==′-′)returnMINUS;
38returnOTHER;
39}
40intEXCUTE(intstate,intsymbol)
41{
42switch(state)
43{
44case0:
switch(symbol)
45{
46caseDIGIT:
n=0;
p=0;
e=1;
w=d;
CurrentState=1;
Class=UCON;
47casePOINT:
w=0;
n=0;
CurrentState=3;
48default:
HandleOtherWord();
Class=ClassOther;
49CurrentState=EndState;
50}
51break;
52case1:
53{
54caseDIGIT:
w=w*10+d;
//CurrentState=1
55casePOINT:
CurrentState=2;
56casePOWER:
CurrentState=4;
57default:
ICON=w;
CurrentState=EndState;
58}
59break;
60case2:
61{
62caseDIGIT:
n++;
w=w*10+d;
63casePOWER:
64default:
FCON=w*pow(10,e*p-n);
65}
66break;
67case3:
68{
69caseDIGIT:
CurrentState=2;
70default:
HandleError();
71}
72break;
73case4:
74{
75caseDIGIT:
p=p*10+d;
CurrentState=6;
76caseMINUS:
e=-1;
CurrentState=5;
77casePLUS:
CurrentState=5;
78default:
HandleError();
79}
80break;
81case5:
82{
83caseDIGIT:
84default:
85}
86break;
87case6:
88{
89case:
DIGIT:
p=p*10+d;
90default:
91}
92break;
93}
94returnCurrentState;
95}
96intLEX(void)
97{
98intch;
99CurrentState=0;
100while(CurrentState!
=EndState)
101{
102ch=GetChar();
103EXCUTE(CurrentState,ch);
104}
105returnClass;
106}
五、扩展要求
1、在词法分析过程中建立变量名表和常数表,以备以后的编译过程(如语法分析)查询;
扩充关键字的数目、增加单词类别(如逻辑运算符等)、将常数分成字符串常量、整型常量和实型常量等;
添加词法分析中单词出错的位置和错误类型的检查。
2、识别一个程序设计语言(如C语言或其大小适宜的一个子集)所有单词的词法分析程序设计。
建议利用LEX系统。
六、注意
1、上机前的准备:
完成词法分析程序的程序流图,并选择好相应的数据结构。
2、编程:
用C语言或你熟悉的其它高级程序设计语言编写一个规模适当的扫描器。
3、调试:
将各个模块连接成一个完整程序,并整体调试成功。
4、测试:
用于测试扫描器的实例源文件中应有词法正确的,也应有错误的字符串。
5、输出结果:
以文件形式输入的例子至少应包含两行以上的源代码,并以对照的形式将扫描器的分析结果输出,必要时给出正误信息。