编译原理词法分析论文.docx
《编译原理词法分析论文.docx》由会员分享,可在线阅读,更多相关《编译原理词法分析论文.docx(14页珍藏版)》请在冰豆网上搜索。
编译原理词法分析论文
编译原理词法分析论文
《编译原理》结课大作业
《词法分析》
设计说明书
学生姓名阿娜尔古丽·台外库力
学号5011110112
所属学院信息工程学院
专业计算机科学与技术
班级计算机15-1
信息工程学院
摘要:
计算机系统与人信息交换界面多数是应用高级语言来实现。
一个高级语言程序的实现,必须依赖于相应的编译系统。
所谓编译程序就是指能够把某一种语言程序转换成另一种与之等价的语言程序。
它通常包括五个阶段:
词法分析,语法分析,语义分析与中间代码的产生、优化,目标代码的生成。
完成计算机翻译过程的关键阶段,它为后面的语法分析、语义分析做好准备,打好基础,以便快速地、高质量地生成目标语言程序。
因此词法分析是编译的基础。
词法分析器所处理的对象即词法分析程序的输入数据,实际上是源程序经过编译预处理,去掉多余的符号后而形成的代码,这样给词法分析带来方便。
词法分析的过程是线性的从头至尾扫描一遍,复杂度较低,易实现。
关键词:
词法分析C语言标识符
1、引言
计算机系统与人信息交换界面多数是应用高级语言来实现。
一个高级语言程序的实现,必须依赖于相应的编译系统。
所谓编译程序就是指能够把某一种语言程序转换成另一种与之等价的语言程序。
它通常包括五个阶段:
词法分析,语法分析,语义分析与中间代码的产生、优化,目标代码的生成。
完成计算机翻译过程的关键阶段,它为后面的语法分析、语义分析做好准备,打好基础,以便快速地、高质量地生成目标语言程序。
因此词法分析是编译的基础。
2、基于c语言词法分析器的设计
2.1词法分析器的设计原则
在编译程序工作的五个阶段中,每个阶段都必须遵从功能等价的原则。
词法规则与语法分析阶段依据的语法规则一同构成了一个语言的语法,而语法则是从"形"的角度衡量一个程序是否合法。
所以在词法分析阶段,词法规则成为重要的研究对象。
词法分析器所处理的对象即词法分析程序的输入数据,实际上是源程序经过编译预处理,去掉多余的符号后而形成的代码,这样给词法分析带来方便。
词法分析的过程是线性的从头至尾扫描一遍,复杂度较低,易实现。
2.2词法分析器的设计对象
在计算机翻译中,词法分析的关键之一在于如何识别单词的种类,特别是面对定义形式一样、结构完全相同的标识符和保留字,如何正确地解决对它们的识别处理,是词法分析中的一项重要任务。
由于我们规定的c语言程序语句中涉及单词较少,故在词法分析阶段忽略了单词输入错误的检查,而将编译程序的重点放在中间代码生成阶段。
词法分析器的功能是输入源程序,输出单词符号。
规定输出的单词符号格式为如下的二元式:
(单词种别,单词自身的值)。
通常一种程序语言中定义的单词种类包括标识符(identifier)、保留字(reservedword)、常数(literal)、运算符(operator)、界符等。
C语言中定义了属于这五种类型的大量的单词,但是由于预编译器只识别我们自定义的注释,因此预编译器处理的单词集只是C语言中定义的单词集的一个真子集。
2.3词法分析器的任务及功能
2.3.1词法分析器的任务
从左至右逐个字符地对源程序进行扫描,产生一个个的单词符号,把作为字符串的源程序转换成为单词符号串的中间程序。
词法分析程序的输出结果是组成语言的基本元素即单词,在实际处理的时候,输出并非单词,而是每个单词对应的二元式,形为<单词种别,单词符号的属性>,编码的方式由编译系统的研制者决定。
故经过词法分析,在输出结果中并没有单词本身。
2.3.2词法分析程序的功能:
输入:
所给文法的源程序字符串。
输出:
二元组(syn,token或sum)构成的序列。
其中:
syn为单词种别码;
token为存放的单词自身字符串;
sum为整型常数。
例如:
对源程序beginx:
=9:
ifx>9thenx:
=2*x+1/3;end#的源文件,经过词法分析后/
16
#
0
3、基于c语言词法分析器的实现
本词法分析器是基于c语言编写,即它本身程序由c语言编写并且它能识别的源程序单词串也是c语言编写的源程序。
本程序编辑环境是Touboc2.0即可,调用本程序之前需要的在TC默认路径下编写一个c语言的源程序,并取名eample.c以便程序调用分析,输出结果为二元式码。
3.1词法分析程序的算法思想:
算法的基本任务是从字符串表示的源程序中识别出具有独立意义的单词符号,其基本思想是根据扫描到单词符号的第一个字符的种类,拼出相应的单词符号。
3.2主程序示意图:
主程序示意图如图3-1所示。
其中初始包括以下两个方面:
图3-1
⑴关键字表的初值。
关键字作为特殊标识符处理,把它们预先安排在一张表格中(称为关键字表),当扫描程序识别出标识符时,查关键字表。
如能查到匹配的单词,则该单词为关键字,否则为一般标识符。
关键字表为一个字符串数组,其描述如下:
Char*rwtab[6]={“begin”,“if”,“then”,“while”,“do”,“end”,};
图3-1
3.3函数定义说明
(1)search()查找并识别当前单词类别,并给定单词类别二元式码,决定给定字符串类别码(即单词种别)和记录次序码。
(2)alphaprocess()识别当前是数组、保留字、标识符。
(3)point()识别当前字符串是指针。
(4)digitprocess()识别当前是常整数、小数、负小数。
(5)otherprocess()识别当前是其它(标点符号等)。
(6)fopen()在默认路径下打开分析程序并读入字符串。
3.4程序设计实现及功能说明
3.4.1关键字的定义
voidinit()
{for(intj=0;j<18;j++)
{strcpy(symtable[j].lexptr,str[j]);
symtable[j].token=j+3;}}
3.4.2符合的关键字的查找
intsearch(char*temp)
{for(unsignedinti=0;i<18;i++)
{if(!
strcmp(symtable[i].lexptr,temp))
returnsymtable[i].token;
}return0;}
4、词法分析程序的C语言程序源代码:
#include
#include
charprog[80],token[8],ch;
intsyn,p,m,n,sum;
char*rwtab[6]={"begin","if","then","while","do","end"};
scaner();
main()
{p=0;
printf("\npleaseinputastring(endwith'#'):
/n");
do{
scanf("%c",&ch);
prog[p++]=ch;
}while(ch!
='#');
p=0;
do{
scaner();
switch(syn)
{case11:
printf("(%-10d%5d)\n",sum,syn);
break;
case-1:
printf("youhaveinputawrongstring\n");
getch();
exit(0);
default:
printf("(%-10s%5d)\n",token,syn);
break;
}
}while(syn!
=0);
getch();
}
scaner()
{sum=0;
for(m=0;m<8;m++)token[m++]=NULL;
ch=prog[p++];
m=0;
while((ch=='')||(ch=='\n'))ch=prog[p++];
if(((ch<='z')&&(ch>='a'))||((ch<='Z')&&(ch>='A')))
{while(((ch<='z')&&(ch>='a'))||((ch<='Z')&&(ch>='A'))||((ch>='0')&&(ch<='9')))
{token[m++]=ch;
ch=prog[p++];
}
p--;
syn=10;
for(n=0;n<6;n++)
if(strcmp(token,rwtab[n])==0)
{syn=n+1;
break;
}
}
elseif((ch>='0')&&(ch<='9'))
{while((ch>='0')&&(ch<='9'))
{sum=sum*10+ch-'0';
ch=prog[p++];
}
p--;
syn=11;
}
elseswitch(ch)
{case'<':
token[m++]=ch;
ch=prog[p++];
if(ch=='=')
{syn=22;
token[m++]=ch;
}
else
{syn=20;
p--;
}
break;
case'>':
token[m++]=ch;
ch=prog[p++];
if(ch=='=')
{syn=24;
token[m++]=ch;
}
else
{syn=23;
p--;
}
break;
case'+':
token[m++]=ch;
ch=prog[p++];
if(ch=='+')
{syn=17;
token[m++]=ch;
}
else
{syn=13;
p--;
}
break;
case'-':
token[m++]=ch;
ch=prog[p++];
if(ch=='-')
{syn=29;
token[m++]=ch;
}
else
{syn=14;
p--;
}
break;
case'!
':
ch=prog[p++];
if(ch=='=')
{syn=21;
token[m++]=ch;
}
else
{syn=31;
p--;
}
break;
case'=':
token[m++]=ch;
ch=prog[p++];
if(ch=='=')
{syn=25;
token[m++]=ch;
}
else
{syn=18;
p--;
}
break;
case'*':
syn=15;
token[m++]=ch;
break;
case'/':
syn=16;
token[m++]=ch;
break;
case'(':
syn=27;
token[m++]=ch;
break;
case')':
syn=28;
token[m++]=ch;
break;
case'{':
syn=5;
token[m++]=ch;
break;
case'}':
syn=6;
token[m++]=ch;
break;
case';':
syn=26;
token[m++]=ch;
break;
case'\"':
syn=30;
token[m++]=ch;
break;
case'#':
syn=0;
token[m++]=ch;
break;
case':
':
syn=17;
token[m++]=ch;
break;
default:
syn=-1;
break;
}
token[m++]='\0';
}
5、结果分析:
运行结果如图5-1所示
图5-1
输入end+good/1+2*1=23;need#后经词法分析输出如下序列:
(end6)(+13)(good10)(/16)(111)(+13)……如图5-2所示:
图5-2
6、总结
计算机系统高级语言翻译是一个涉及到计算机语言学、人工智能、计算机应用等理论和技术的多学科的复杂系统工程。
基于c语言词法分析器是应用c语言编写通过扫描c语言源程序,从而正确识别出从源程序中分解出的二元式码形式的单词串,以供语法分析阶段使用。
词法分析的基本任务是从字符串表示的源程序中识别出具有独立意义的单词符号,其基本思想是根据扫描到单词符号的第一个字符的种类,拼出相应的单词符号。
词法分析器是此次编译原理课程的最后一个任务,虽然对书上的理论知识已经事先温习并稳固了,但在刚开始的实践中,对如何进行设计还是很模糊。
之后我通过参考一些课外资料,与同学一起探讨学习,明确了词法分析器设计的大概思路后,顺利完成任务。
通过这次的实践,使我对编译原理的知识掌握得更扎实、稳固,不再只停留在只会做题却对知识的掌握的一知半解,现在真正将书面知识运用到实际的设计中,使自己对编译原理的理解更深入,更形象,能通过程序将一些原理简单实现。
相信有了这次课程设计的经验,会对我下一个程序的课程设计会有很大的帮助通过本试验的完成,更加加深了对词法分析原理的理解。
参考文献
[1]胡元义.编译原理教程[M].西安电子科技大学出版社.2003年3月
[2]刘磊,金英等.编译程序的设计与实现[M].高等教育出版社.2004年7月
[3]KennethC.Louden著.冯博琴译.编译原理及实践.机械工业出版社.2000年
[4]AndrewW.Appel著.赵克佳等译.现代编译原理C语言描述.人民邮电出版社.2006年
[5]陈火旺,刘春林等.程序设计语言编译原理第三版.国防科大出版社.2001年