实验一词法分析.doc
《实验一词法分析.doc》由会员分享,可在线阅读,更多相关《实验一词法分析.doc(10页珍藏版)》请在冰豆网上搜索。
编译原理实验一词法分析
1.实验目的
通过实验掌握词法分析的理论、原理和方法,为语法分析做准备。
2.实验内容:
a)十六进制数识别器:
规定是:
必须以十六进制数字打头,以H结尾,十六进制数中允许使用的数字为0-9,字母为A,B,C,D,E,F(分别表示0~15)。
试设计一个DFA,使它能识别无符号的十六进制整数,并编制相应的识别程序。
输入:
学生自行确定符号串的输入形式,如键盘输入、文本文件、字符数组等。
输出:
标识出规范的符号串与不合规范的符号串。
b)词法分析:
设计、编制、调试一个识别一个Little语言单词的词法分析程序(见附录1)。
输入:
学生自行确定符号串的输入形式,如键盘输入、文本文件、字符数组等。
输出:
二元组。
3.实验要求:
(1)上机前编写完整的实验报告,报告中要体现分析à设计à实现等几个过程;如无实验报告,则取消本次上机资格,实验成绩以0分记。
(2)严禁相互抄袭,否则实验成绩以0分记;
(3)有完整的源代码,源码有规范的注释,无明显的语法错误;
4.实验步骤
(1)分析与设计
a、
文法:
该语言的十六进制,如:
0aH,77H,7BH等由以数字打头及以H结尾;该语言的标识符,如:
Num,a3,go等由A到Z(ora到z)和0至9所组成;该语言的无符号的十进制,如:
8,90,123等由0到9之间的任意数字组成。
由以上可得出该语言的文法可表示如下:
G(S)=(VN,VT,P,S)
其中VN = {S,X’,Y’,Z’,M’,W’,α,β,γ,μ,υ,ω}
VT ={0,1,2,3,4,5,6,7,8,9,a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v,w,x,y,z,
A,B,C,D,E,F,G,H,I,G,K,L,M,N,O,P,Q,R,S,T,U,V,W,X,Y,Z}
α=0|1|2|3|4|5|6|7|8|9
β =a|b|c|d|e|f|A|B|C|D|E|F
γ =g| h|i|j|k|l|m|n|o|p|q|r|s|t|u|v|w|x|y|z|G|H|I|G|K|L|M|N|O|P|Q|R|S|T|U|V|W|X|Y|Z
S → X’|Y’|Z’
X’ → υ|υM’
M’ →ω|ωM’
υ →β|γ
ω →α|β|γ
Y’ → α|αY’
Z’ → αH|αW’H
W’ →μ|μW’
μ →α|β
可见,上式方法中,X’表示出了语言的标识符,而Y’表示出了语言的无符号的十进制,Z’表示出了语言中的十六进制。
∵ 上式G(S)文法中,各式右边只有单个的终结符号
∴ 显然,以上文法G(S)已是正规文法。
(2)正规文法转成正规式:
具体步骤如下:
∵ M’ → ω|ωM’ 可表示为M’ →ω*ω
W’ → μ|μW’ 可表示为W’ →μ*μ
Z’ → α|αZ’ 可表示为Z’ → α*α
∴转换成正规表达式为:
S=υ|υω*ω|αH|αμ*μH|α*α
代入可得:
S=(β|γ)|(β|γ)(α|β|γ)*(α|β|γ)|αH|α(α|β)* (α|β)H|α*α
(3)正规式转成NFA(分裂法)
初始的NFA图下所示:
图1 初始NFA图
经过替换规则替换后得到的最终NFA图如下所示:
图2 最终的NFA图
(4)NFA转成DFA及DFA最小化(造表法)
对应以上的NFA图,我们可用造表法来表示如下:
显然,由图可看出,状态2与状态5等价,而状态1与状态3等价,这里省去状态3和状态5,并将所以指向状态3的状态都指向状态1,指向状态5的都指向状态2。
由此可画出最小化的DFA图如下:
图3 最小化的DFA图
可见,终结状态1表示出了无符号的十进制,终结状态2表示出了标识符,状态6表示出了十六进制的整数。
b、
单词的BNF表示
<标识符>-><字母><字母数字串>
<字母数字串>-><字母><字母数字串>|<数字><字母数字串>|
<下划线><字母数字串>|ε
<无符号整数>-><数字><数字串>
<数字串>-><数字><数字串>|ε
<加法运算符>->+
<减法运算符>->-
<大于关系运算符>->>
<大于等于关系运算符>->>=
由此可知,需将单词分为五种:
关键字1
标识符2
常数3
运算符4
分隔符5
printf
a
0
+
main
b
1
_
;
int
c
2
*
(
if
student
3
/
)
then
sum
4
=
{
else
k
5
>
}
return
m
6
<
….
….
….
7
>=
8
<=
9
!
=
(2)编码实现
a、
#include
main(intargc,char*argv[]){
inti,j,state,ERROR=-1;
/*state控制状态的转移1表示0~9数字,2表示字母,4表示a~f,6表示H,0为未输入状态
*ERROR=-1表示未输入任何字符串=1表示输入出错*/
charc;/*暂时存放所取得的一个字符*/
char*string[]={"","UnsignedInteger","Identifier","","","","Hex"};/*输出结果时用*/
for(i=1;i state=0;/*初始态为0*/
ERROR=0;/*控制是否为可识别词or非法字符*/
for(j=0;(c=argv[i][j])!
='\0';j++){
switch(state){
case0:
if(c>='0'&&c<='9')
state=1;
elseif
((c>='a'&&c<='z')||(c>='A'&&c<='Z'))
state=2;
elseERROR=1;
break;
/*ERROR=1,表示当前字符c为非法字符。
*即此时无状态可转向。
*/
case1:
if(c>='0'&&c<='9')
state=1;
elseif((c>='a'&&c<='f')||(c>='A'&&c<='F'))
state=4;
elseif(c=='H')
state=6;
else
ERROR=1;
break;
case2:
if((c>='a'&&c<='z')||(c>='A'&&c<='Z')||(c>='0'&&c<='9'))
state=2;
else
ERROR=1;
break;
case4:
if((c>='0'&&c<='9')||(c>='a'&&c<='f')||(c>='A'&&c<='F'))
state=4;
elseif(c=='H')
state=6;
else
ERROR=1;
break;
case6:
ERROR=1;
break;
}/*endswitch*/
if(ERROR==1)
break;/*退出内for的循环,完成一个词的分析。
*/
}/*endinside-for*/
if(ERROR==1)
printf("%-15sisaun-identifyword!
\n",argv[i]);
elseif(ERROR==0)
printf("%-15sisa%s\n",argv[i],string[state]);
}/*endoutside-for*/
/*未输入任何字符串时(除文件名外)*/
if(ERROR==-1)printf("Youinputnothing!
\n");
exit(0);/*正常退出程序*/
}/*endmain*/
b、
#include
#include
#include
#include
//定义关键字
char*table[7]={"continue","main","int","if","then","else","return"},TOKEN[20],ch;
boolzimu(charch)//判断是否为字母
{
if(ch>='a'&&ch<='z'||ch>='A'&&ch<='Z')
returntrue;
else
returnfalse;
}
//判断是否为数字
boolshuzi(charch)
{
if(ch>='0'&&ch<='9')
returntrue;
else
returnfalse;
}
intlookup(char*TOKEN)//关键字匹配函数,查询所述程序中的关键字
{
intm,i;
for(i=0;i<6;i++)
{
if((m=strcmp(TOKEN,table[i]))==0)
return1;
}
return0;
}
voidout(intc,char*TOKEN)//输出函数
{printf("(%d,%s)\n",c,TOKEN);}
voidscanner(FILE*fp)//扫描函数
{
charTOKEN[20]={'\0'};
charch;
inti;
ch=fgetc(fp);//获取字符,指针fp并自动指向下一个字符
if(zimu(ch)//判断该字符是否是字母,若ch指的是字母,返回非0,否则返回0
{TOKEN[0]=ch;
ch=fgetc(fp);//fgetc(fp)从数据流中区下一个字符
i=1;
while(shuzi(ch)||zimu(ch))//判断该字符是否是字母或数字
{
TOKEN[i]=ch;
ch=fgetc(fp);
i++;
}
fseek(fp,-1,1);
if(lookup(TOKEN))//判断是关键字还是普通的标识符
out(1,TOKEN);
else
out(2,TOKEN);
}
elseif(shuzi(ch))
{
TOKEN[0]=ch;
ch=fgetc(fp);//fgetc(fp)从数据流中区下一个字符
i=1;
while(shuzi(ch))//判断该字符是否是字母或数字