编译原理实验报告一.docx

资源描述

编译原理实验报告一.docx

《编译原理实验报告一.docx》由会员分享，可在线阅读，更多相关《编译原理实验报告一.docx（17页珍藏版）》请在冰豆网上搜索。

编译原理实验报告一.docx

编译原理实验报告一

实验一词法分析程序实现

一、实验目的与要求

通过编写和调试一个词法分析程序，掌握在对程序设计语言的源程序进行扫描的过程中，将字符流形式的源程序转化为一个由各类单词符号组成的流的词法分析方法

二、实验内容

基本实验题目：

若某一程序设计语言中的单词包括五个关键字begin、end、if、then、else；标识符；无符号常数；六种关系运算符；一个赋值符和四个算术运算符，试构造能识别这些单词的词法分析程序（各类单词的分类码参见表I）。

表I语言中的各类单词符号及其分类码表

单词符号

类别编码

类别码的助记符

单词值

begin

BEGIN

end

END

then

THEN

else

ELSE

标识符

字母打头的字母数字串

无符号常数

UCON

机内二进制表示

输入：

由符合和不符合所规定的单词类别结构的各类单词组成的源程序文件。

输出：

把所识别出的每一单词均按形如（CLASS，VALUE）的二元式形式输出，并将结果放到某个文件中。

对于标识符和无符号常数，CLASS字段为相应的类别码的助记符；VALUE字段则是该标识符、常数的具体值；对于关键字和运算符，采用一词一类的编码形式，仅需在二元式的CLASS字段上放置相应单词的类别码的助记符，VALUE字段则为“空”。

三、实现方法与环境

词法分析是编译程序的第一个处理阶段，可以通过两种途径来构造词法分析程序。

其一是根据对语言中各类单词的某种描述或定义（如BNF），用手工的方式（例如可用C语言）构造词法分析程序。

一般地，可以根据文法或状态转换图构造相应的状态矩阵，该状态矩阵连同控制程序一起便组成了编译器的词法分析程序；也可以根据文法或状态转换图直接编写词法分析程序。

构造词法分析程序的另外一种途径是所谓的词法分析程序的自动生成，即首先用正规式对语言中的各类单词符号进行词型描述，并分别指出在识别单词时，词法分析程序所应进行的语义处理工作，然后由一个所谓词法分析程序的构造程序对上述信息进行加工。

如美国BELL实验室研制的LEX就是一个被广泛使用的词法分析程序的自动生成工具。

处理过程简述：

在一个程序设计语言中，一般都含有若干类单词符号，为此可首先为每类单词建立一张状态转换图，然后将这些状态转换图合并成一张统一的状态图，即得到了一个有限自动机，再进行必要的确定化和状态数最小化处理，最后添加当进行状态转移时所需执行的语义动作，就可以据此构造词法分析程序了。

为了使词法分析程序结构比较清晰，且尽量避免某些枝节问题的纠缠，我们假定要编译的语言中，全部关键字都是保留字，程序员不得将它们作为源程序中的标识符；在源程序的输入文本中，关键字、标识符、无符号常数之间，若未出现关系和算术运算符以及赋值符，则至少须用一个空白字符加以分隔。

作了这些限制以后，就可以把关键字和标识符的识别统一进行处理。

即每当开始识别一个单词时，若扫视到的第一个字符为字母，则把后续输入的字母或数字字符依次进行拼接，直至扫视到非字母、数字字符为止，以期获得一个尽可能长的字母数字字符串，然后以此字符串查所谓保留字表（此保留字表要事先造好），若查到此字符串，则取出相应的类别码；反之，则表明该字符串应为一标识符。

采用上述策略后，针对表I中的部分单词可以参考教材P80的图3-22（见图1）

图1识别表I所列语言中的部分单词的DFA及相关的语义过程

图1中所出现的语义变量及语义函数的含义和功能说明如下：

函数GETCHAR：

每调用一次，就把扫描指示器当前所指示的源程序字符送入字符变量ch，然后把扫描指示器前推一个字符位置。

字符数组TOKEN：

用来依次存放一个单词词文中的各个字符。

函数CAT：

每调用一次，就把当前ch中的字符拼接于TOKEN中所存字符串的右边。

函数LOOKUP：

每调用一次，就以TOKEN中的字符串查保留字表，若查到，就将相应关键字的类别码赋给整型变量c；否则将c置为零。

函数RETRACT：

每调用一次，就把扫描指示器回退一个字符位置（即退回多读的那个字符）。

函数OUT：

一般仅在进入终态时调用此函数，调用的形式为OUT（c，VAL）。

其中，实参c为相应单词的类别码助记符；实参VAL为TOKEN（即词文）或为空串。

函数OUT的功能是，在送出一个单词的内部表示之后，返回到调用该词法分析程序的那个程序。

总的来说，开发一种新语言时，由于它的单词符号在不停地修改，采用LEX等工具生成的词法分析程序比较易于修改和维护。

一旦一种语言确定了，则采用手工编写词法分析程序效率更高。

四．源程序

#include

#defineID6

#defineINT7

#defineLT8

#defineLE9

#defineEQ10

#defineNE11

#defineGT12

#defineGE13

#defineIS14

#definePL15

#defineMI16

#defineMU17

#defineDI18

#defineMAX_KEY_NUMBER20//关键字的数量

#defineKEY_WORD_END"waitingforyourexpanding"//关键字结束标记

char*KeyWordTable[MAX_KEY_NUMBER]={"begin","end","if","then","else",KEY_WORD_END};

charTOKEN[20]="";

charch='';//用于存储带判断的字符

introw=1;//row标识错误在第几行

#defineDIGIT1

#definePOINT2

#defineOTHER3

#definePOWER4

#definePLUS5

#defineMINUS6

#defineUCON7//假设无符号常量的类数是7

#defineClassOther200

#defineEndState-1

intindex=0;//保存已读的字符串的索引

intw,n,p,e,d;

intClass;//用于表示类的词

intICON;

floatFCON;

staticintCurrentState;//用于目前的当前状态,初始值:

intEXCUTE（intstate,intsymbol,FILE*fp,charJudgeStr[],introw,intindex）;

intGetChar（charch）;

intHandleError（charStrJudge[],introw）;

///////////////////查保留字表，判断是否为关键字

intlookup（char*token）

{

intn=0;

while（strcmp（KeyWordTable[n],KEY_WORD_END））//strcmp比较两串是否相同，若相同返回0

{

if（!

strcmp（KeyWordTable[n],token））//比较token所指向的关键字和保留字表中哪个关键字相符

{

returnn+1;//根据单词分类码表I，设置正确的关键字类别码，并返回此类别码的值

break;

}

n++;

}

return6;//单词不是关键字，而是标识符

}

///////////////////输出分析结果

voidout（inti,char*pStr）

{

charMnemonic[5];

if（1==i）

{

strcpy（Mnemonic,"BEGIN"）;

}

elseif（2==i）

{

strcpy（Mnemonic,"END"）;

}

elseif（3==i）

{

strcpy（Mnemonic,"IF"）;

}

elseif（4==i）

{

strcpy（Mnemonic,"THEN"）;

}

elseif（5==i）

{

strcpy（Mnemonic,"ELSE"）;

}

elseif（6==i）

{

strcpy（Mnemonic,"ID"）;

}

elseif（7==i）

{

strcpy（Mnemonic,"INT"）;

}

elseif（8==i）

{

strcpy（Mnemonic,"LT"）;

}

elseif（9==i）

{

strcpy（Mnemonic,"LE"）;

}

elseif（10==i）

{

strcpy（Mnemonic,"EQ"）;

}

elseif（11==i）

{

strcpy（Mnemonic,"NE"）;

}

elseif（12==i）

{

strcpy（Mnemonic,"GT"）;

}

elseif（13==i）

{

strcpy（Mnemonic,"GE"）;

}

elseif（14==i）

{

strcpy（Mnemonic,"IS"）;

}

elseif（15==i）

{

strcpy（Mnemonic,"PL"）;

}

elseif（16==i）

{

strcpy（Mnemonic,"MI"）;

}

elseif（17==i）

{

strcpy（Mnemonic,"MU"）;

}

elseif（18==i）

{

strcpy（Mnemonic,"DI"）;

}

else

{

strcpy（Mnemonic,"UnkownType"）;

}

printf（"（%s）对应%s\n",Mnemonic,pStr）;

}

///////////////////报错

voidreport_error（introw）

{

printf（"%sError!

Inthe%drow\n",TOKEN,row）;

}

///////////////////扫描程序

voidscanner（FILE*fp）//总的判断函数开始就应该判断已读取的字符是否为空字符，不为则不用再读，直接进行判断，否则再读

{

inti,c;

fseek（fp,-1,1）;//首先回溯一个字符，就是将文件所有的字符都在scanner内部判断，外部while循环不会浪费任何字符

ch=fgetc（fp）;//scanner中要想判断字符，必须开头先读一个字符

while（''==ch||'\n'==ch||'\t'==ch）//将文件中的所有空字符浪费在这里

{

if（'\n'==ch）

{

row++;

}

ch=fgetc（fp）;

}

if（EOF==ch）

{

return;

}//必须在这里判断一下

if（isalpha（ch））/*itmustbeaidentifer!

{

TOKEN[0]=ch;ch=fgetc（fp）;i=1;

while（isalnum（ch））

{

TOKEN[i]=ch;i++;

ch=fgetc（fp）;

}

TOKEN[i]='\0';

fseek（fp,-1,1）;/*retract*/

c=lookup（TOKEN）;

if（c!

=6）out（c,TOKEN）;elseout（c,TOKEN）;

}

elseif（isdigit（ch）||'.'==ch）

{

fseek（fp,-1,1）;//首先回溯一个字符，下面为了循环内部使用先读字符后判断的格式。

intType;

CurrentState=0;

i=0;

{

ch=fgetc（fp）;

TOKEN[i]=ch;

i++;

TOKEN[i]='\0';//为随时输出字符串做准备

Type=GetChar（ch）;

EXCUTE（CurrentState,Type,fp,TOKEN,row,i）;

}while（CurrentState!

=EndState）;

}

else

switch（ch）

{

case'<':

ch=fgetc（fp）;

if（ch=='='）out（LE,"<="）;

elseif（ch=='>'）out（NE,"<>"）;

else

{

fseek（fp,-1,1）;

out（LT,"<"）;

}

break;

case'=':

{

ch=fgetc（fp）;

if（'='==ch）

{

out（EQ,"=="）;

}

else

{

fseek（fp,-1,1）;

out（IS,"="）;

}

break;

case'>':

ch=fgetc（fp）;

if（ch=='='）out（GE,">="）;

else

{

fseek（fp,-1,1）;

out（GT,">"）;

}

break;

case'+':

{

out（PL,"+"）;

}

break;

case'-':

{

out（MI,"-"）;

}

break;

case'*':

{

out（MU,"*"）;

}

break;

case'/':

{

out（DI,"/"）;

}

break;

default:

report_error（row）;break;

}

return;

}

///////////////////判断矩阵执行程序

intEXCUTE（intstate,intsymbol,FILE*fp,charJudgeStr[],introw,intindex）//row用于指示出错的行数，index用于为待输出的字符串赋结束符‘\0’时用

{

switch（state）

{

case0:

switch（symbol）

{

caseDIGIT:

n=0;p=0;e=1;w=d;CurrentState=1;Class=UCON;break;

casePOINT:

w=0;n=0;p=0;e=1;CurrentState=3;Class=UCON;break;

default:

{

Class=ClassOther;

CurrentState=EndState;

printf（"无符号数的第一个字符是非法的！

\n"）;

}

break;

case1:

switch（symbol）

{

caseDIGIT:

w=w*10+d;break;//CurrentState=1

casePOINT:

CurrentState=2;break;

casePOWER:

CurrentState=4;break;

default:

{

if（ch!

=EOF）//如果是因为读到文件结束字符而终止识别，就不应该回退，否则可能造成死循环

{

fseek（fp,-1,1）;//遇到其他的字符，可能是一条语句中的其他字符，需后退，因为主函数外层循环每次都要读一个字符进行判断，而这个判读不回溯，所以在内部把这个多读的字符回溯

}

ICON=w;CurrentState=EndState;

JudgeStr[index-1]='\0';

printf（"（UCON,%i）对应%s\n",ICON,JudgeStr）;

}break;

}

break;

case2:

switch（symbol）

{

caseDIGIT:

n++;w=w*10+d;break;

casePOWER:

CurrentState=4;break;

default:

{

if（ch!

=EOF）

{

fseek（fp,-1,1）;

}

FCON=w*pow（10,e*p-n）;CurrentState=EndState;

JudgeStr[index-1]='\0';

printf（"（UCON,%f）对应于%s\n",FCON,JudgeStr）;

}

break;

case3:

switch（symbol）

{

caseDIGIT:

n++;w=w*10+d;CurrentState=2;break;

default:

{

HandleError（JudgeStr,row）;CurrentState=EndState;//识别无符号数产生错误时，不应该再回溯，应该把造成错误的那个字符算到错误的无符号数字符串中，再向下面识别单词时跳过这个字符，不回溯就能达到这个目的

}

break;

case4:

switch（symbol）

{

caseDIGIT:

p=p*10+d;CurrentState=6;break;

caseMINUS:

e=-1;CurrentState=5;break;

casePLUS:

CurrentState=5;break;

default:

{

/*if（ch!

=EOF）

{

fseek（fp,-1,1）;

}*/

HandleError（JudgeStr,row）;CurrentState=EndState;

}

break;

case5:

switch（symbol）

{

caseDIGIT:

p=p*10+d;CurrentState=6;break;

default:

{

HandleError（JudgeStr,row）;CurrentState=EndState;//判断一个无符号数的最后一个字符应该都是多余读取的，所以为了防止引起后面再次判断下一无符号数时产生呑字符的现象，都应该回溯一个字符

}

break;

case6:

switch（symbol）

{

caseDIGIT:

p=p*10+d;break;

default:

{

if（ch!

=EOF）

{

fseek（fp,-1,1）;

}

FCON=w*pow（10,e*p-n）;CurrentState=EndState;

JudgeStr[index-1]='\0';

printf（"（UCON,%f）对应%s\n",FCON,JudgeStr）;

}break;

}

break;

}

returnCurrentState;

}

///////////////////无符号数判断过程中的字符类型判断程序

intGetChar（charch）

{

if（isdigit（ch））{d=ch-'0';returnDIGIT;}

if（ch=='.'）returnPOINT;

if（ch=='E'||ch=='e'）returnPOWER;

if（ch=='+'）returnPLUS;

if（ch=='-'）returnMINUS;

returnOTHER;

}

///////////////////判断出错报错程序

intHandleError（charStrJudge[],introw）

{

printf（"Row:

%d*****%sError!

\n",row,StrJudge）;return0;

}

///////////////////主程序

intmain（intargc,char*argv[]）

{

FILE*p=fopen（"D:

\\YWD.txt","r"）;

if（ch=fgetc（p）==EOF）//不管小括号内的判断是否成功，p指针都会向后移一个位置，判断不成功，ch中存的字符不变

{

printf（"Thenull.\n"）;

return0;

}

printf（"第一个字母是：

%c\n",ch）;

{

scanner（p）;

}while（ch=fgetc（p）!

=EOF）;

fclose（p）;

return0;

}

五．测试用例及运行结果分析

测试用例：

begin8E-5+8*7/1.5

运行结果：

展开阅读全文