编译原理课程实验指导书PL0语言及编译器.docx
《编译原理课程实验指导书PL0语言及编译器.docx》由会员分享,可在线阅读,更多相关《编译原理课程实验指导书PL0语言及编译器.docx(70页珍藏版)》请在冰豆网上搜索。
编译原理课程实验指导书PL0语言及编译器
《编译原理》课程实验指导书
(CompilerPrinciple)
目录
序言1
一、实验安排2
第一阶段:
编译器的词法分析2
第二阶段:
编译器的语法分析2
第三阶段:
编译器的代码生成3
二、考核方式及评定标准4
三、参考资料与编译器分析4
第一部分PL语言及其编译器4
1.PL语言介绍4
1.1PL语言的语法图5
2.PL语言编译器8
2.1词法分析9
2.2语法分析9
2.3语义分析11
2.4代码生成11
2.5代码执行13
2.6错误诊断处理15
2.7符号表管理17
2.8其他18
第二部分上机实验要求19
第三部分PL语言编译器源程序与示例21
1.示例与结果表示21
1.1PL语言源程序21
1.2生成的代码(片段)23
2.PL语言编译器源程序23
序言
本《编译原理》实验,其目的是让大家动手设计和实现一个规模适中的语言的编译器,该编译器不仅涉及编译程序的各个阶段,而且也强调了编译的总体设计、各个阶段的接口安排等等。
通过上机实践,来设计这个相对完整的编译器,一方面可以使同学们增加对编译程序的整体认识和了解——巩固《编译原理》课程所学知识,另一方面,通过上机练习,学生也可以学到很多程序调试技巧和设计大型程序一般的原则,如模块接口的协调,数据结构的合理选择等等。
为了使学生能尽早动手实践,我们建议把实践分成三部分,首先阅读本教程第一部分,在这部分就PL语言的语法及其编译程序的各个阶段作了简单介绍,以便对PL编译程序有个初步的印象。
其次要认真阅读理解第三部分所给出的PL编译器源程序及示例,使上一阶段的初步印象得以加深、具体化。
最后按照第二部分的实验要求扩充PL语言的功能并加以实现。
具体操作时分成三个阶段:
词法分析、语法分析及代码生成。
最后再统一组装成一个完整的PL编译器,并适当进行改进、补充。
一、实验安排
第一阶段:
编译器的词法分析
学时:
2
(一)、实验目的:
通过阅读PL的语法图,设计、编制并调试一个PL词法分析程序,加深对词法分析原理的理解。
(二)、实验内容:
PL的词法分析器将要完成以下工作:
(1)跳过分隔符(如空格,回车,制表符);
(2)识别诸如begin,end,if,while等保留字;
(3)识别非保留字的一般标识符,此标识符值(字符序列)赋给全局量id,而全局量sym赋值为SYM_IDENTIFIER。
(4)识别数字序列,当前值赋给全局量NUM,sym则置为SYM_NUMBER;
(5)识别:
=,<=,>=之类的特殊符号,全局量sym则分别被赋值为SYM_BECOMES,SYM_LEQ,SYM_GEQ等。
相关过程(函数)有getsym(),getch(),其中getch()为获取单个字符的过程,除此之外,它还完成:
(1)识别且跳过行结束符;
(2)将输入源文件复写到输出文件;
(3)产生一份程序列表,输出相应行号或指令计数器的值。
第二阶段:
编译器的语法分析
学时:
4
(一)、实验目的:
掌握PL语言编译器的语法分析程序设计与LL
(1)文法应用的实现方法。
(二)、实验内容:
采用递归下降的方法来设计PL/0编译器,证明PL/0语言属于LL
(1)文法。
然后结合语法图编写(递归下降)语法分析程序的一般方法,具体方面有:
(1)用合适的替换将语法约化成尽可能少的单个图;
(2)将每一个图按下面的规则(3)-(7)翻译成一个过程说明;
(3)顺序图对应复合语句:
(4)选择:
(5)循环
(6)表示另一个图A的图:
(7)表示终结符的单元图:
相关过程有:
block(),constdeclaration(),vardeclaration(),statement(),condition(),expression(),term(),factor()等。
并画出它们之间依赖关系图,并在此基础上实现程序的编制。
并适当进行语义分析的相关检查:
(1)是否存在标识符先引用未声明的情况;
(2)是否存在己声明的标识符的错误引用;
(3)是否存在一般标识符的多重声明。
第三阶段:
编译器的代码生成
学时:
2
(一)、实验目的:
掌握PL语言编译器的中间代码生成的程序分析与实现方法,并能对错误进行分析与处理。
(二)、实验内容:
为了使我们的编译程序保持适当简单的水平,不致陷入与本课程无关的实际机器的特有性质的考虑中去,我们假想有台适合PL程序运行的计算机,我们称之为PL处理机。
PL处理机顺序解释生成的目标代码。
PL处理机的指令集根据PL语言的要求而设计,它包括以下的指令:
(1)LIT/*将常数置于栈顶*/
(2)LOD/*将变量值置于栈顶*/
(3)STO/*将栈顶的值赋与某变量*/
(4)CAL/*用于过程调用的指令*/
(5)INT/*在数据栈中分配存贮空间*/
(6)JMP,JPC/*用于if,while语句的条件或无条件控制转移指令*/
(7)OPR/*一组算术或逻辑运算指令*/
上述指令的格式由三部分组成:
F
L
A
其中,f,l,a的含义见下表:
F
L
a
INT
———
常量
LIT
———
常量
LOD
层次差
数据地址
STO
层次差
数据地址
CAL
层次差
程序地址
JMP
———
程序地址
JPC
———
程序地址
OPR
———
运算类别
表1PL处理机指令
PL的编译程序为每一条PL源程序的可执行语句生成后缀式目标代码。
另一方面,发现错误,并给出合适的诊断信息且继续编译下去从而发现更多的错误,对于编译程序而言是完全必要的。
结合关键字规则、镇定规则,采用策略:
先用一些明显的关键符号给它赋初值,然后随着分析子目标的层次深入,逐步补充别的合法符号。
并编写子程序去验证之。
二、考核方式及评定标准
上机实验要求对PL语言及其编译器进行实现及扩充、修改。
每个扩充或修改方式可得到不同的分数,满分为100分。
完成上机作业后,必须提交下列文档:
(1)修改后的PL语言文本。
包含词法分析(正规式),语法分析(BNF)。
(2)有关修改后的PL编译/解释器的说明。
详细说明编译器是如何编译新的PL语言程序的。
指出程序中最精彩的部分,以及为什么这样做,如何控制和恢复语义错误的。
(3)给出改动后的编译器源程序清单,并标记出所修改的部分。
比较你的编译器和原来的编译器之间的差别。
(4)说明你的编译器中可能存在的错误。
(5)总结经验与教训,如果重做一遍,会有哪些新的改进?
对现存的PL编译程序做如下修改或扩充,其中
(1)、
(2)、(11)和(12)必须完成,剩余的均可任意选择,但总分必须超过40分。
(1)注释(5分)
(2)布尔类型的数据(10分)
(3)布尔表达式的短路计算(5分)
(4)数组(10分)为了便于解释执行,可能要增加新的PL机器操作指令。
(5)参数(10分)语法同Pascal(不用var声明)。
(6)函数(10分)语法同Pascal。
(7)else子句和repeat语句(5分)
(8)for语句,语法参照Pascal或C语言(5分)
(9)exit语句和break语句(5分)
(10)记录(结构),语法同Pascal语言(10分)。
(11)更有力的语法错误恢复机制(20分)
(12)分离解释和编译器(5分)
三、参考资料与编译器分析
第一部分PL语言及其编译器
1.PL语言介绍
PL程序设计语言是一个较简单的语言,它以赋值语句为基础,构造概念有顺序、条件和重复(循环)三种。
PL有子程序概念,包括过程定义(可以嵌套)与调用且有局部变量说明。
PL中唯一的数据类型是整型,可以用来说明该类型的常量和变量。
当然PL也具有通常的算术运算和关系运算。
具体的PL语法图如下。
1.1PL语言的语法图
程序
.
程序体
程序体
=
ident
number
const
;
var
ident
;
;
ident
procedure
;
程序体
语句
语句序列
语句
;
语句
:
=
表达式
ident
语句序列
条件
if
语句
then
do
while
条件
语句
ident
call
end
begin
条件
表达式
odd
表达式
>=
<=
>
<
<>
=
表达式
表达式
+
项
-
+
-
项
项
/
因子
因子
*
因子
ident
number
)
(
表达式
2.PL语言编译器
本书所提供的PL语言编译器的基本工作流程如图1-1所示:
图1-1PL编译器基本工作流程
2.1词法分析
PL的语言的词法分析器将要完成以下工作:
(1)跳过分隔符(如空格,回车,制表符);
(2)识别诸如begin,end,if,while等保留字;
(3)识别非保留字的一般标识符,此标识符值(字符序列)赋给全局量id,而全局量sym赋值为SYM_IDENTIFIER。
(4)识别数字序列,当前值赋给全局量NUM,sym则置为SYM_NUMBER;
(5)识别:
=,<=,>=之类的特殊符号,全局量sym则分别被赋值为SYM_BECOMES,SYM_LEQ,SYM_GEQ等。
相关过程(函数)有getsym(),getch(),其中getch()为获取单个字符的过程,除此之外,它还完成:
(1)识别且跳过行结束符;
(2)将输入源文件复写到输出文件;
(3)产生一份程序列表,输出相应行号或指令计数器的值。
2.2语法分析
我们采用递归下降的方法来设计PL编译器。
以下我们给出该语言的FIRST和FOLLOW集合。
非终结符(S)
FIRST(S)
FOLLOW(S)
程序体
constvarprocedureidentcallifbeginwhile
.;
语句
identcallbeginifwhile
.;end
条件
odd+-(identnumber
thendo
表达式
+-(identnumber
.;)Rendthendo
项
identnumber(
.;)R+-endthendo
因子
identnumber(
.;)R+-*/endthendo
注:
表中R代表六个关系运算符。
不难证明,PL语言属于LL
(1)文法。
(证明从略。
)
以下是我们给出如何结合语法图编写(递归下降)语法分析程序的一般方法。
假定图S所对应的程序段为T(S),则:
(1)用合适的替换将语法约化成尽可能少的单个图;
(2)将每一个图按下面的规则(3)-(7)翻译成一个过程说明;
(3)顺序图对应复合语句:
Sn
S1
S2
对应:
beginT(S1);T(S2);...;T(Sn)end
(4)选择:
S1
S2
S3
对应:
case语句或者条件语句:
casechofifchinL1thenT(S1)else
L1:
T(S1);ifchinL2thenT(S2)else
L2:
T(S2);或...
...ifchinLnthenT(Sn)else
Ln:
T(Sn);error
其中Li∈FIRST(Si),ch为当前输入符号。
(下同)
(5)循环
S
对应:
whilechinLdoT(S)
(6)表示另一个图A的图:
A
对应:
过程调用A。
(7)表示终结符的单元图:
x
对应:
ifch==xthenread(ch)elseerror
相关过程有:
block(),constdeclaration(),vardeclaration(),statement(),condition(),expression(),term(),factor()等。
它们之间依赖关系如图1-2:
图1-2语法分析过程依赖关系
2.3语义分析
PL的语义分析主要进行以下检查:
(1)是否存在标识符先引用未声明的情况;
(2)是否存在己声明的标识符的错误引用;
(3)是否存在一般标识符的多重声明。
2.4代码生成
PL编译程序不仅完成通常的词法分析、语法分析,而且还产生中间代码和“目标”代码。
最终我们要“运行”该目标码。
为了使我们的编译程序保持适当简单的水平,不致陷入与本课程无关的实际机器的特有性质的考虑中去,我们假想有台适合PL程序运行的计算机,我们称之为PL处理机。
PL处理机顺序解释生成的目标代码,我们称之为解释程序。
注意:
这里的假设与我们的编译概念并不矛盾,在本课程中我们写的只是一个示范性的编译程序,它的后端无法完整地实现,因而只能在一个解释性的环境下予以模拟。
从另一个角度上讲,把解释程序就看成是PL机硬件,把解释执行看成是PL的硬件执行,那么我们所做的工作:
由PL源语言程序到PL机器指令的变换,就是一个完整的编译程序。
PL处理机有两类存贮,目标代码放在一个固定的存贮数组code中,而所需数据组织成一个栈形式存放。
PL处理机的指令集根据PL语言的要求而设计,它包括以下的指令:
(1)LIT/*将常数置于栈顶*/
(2)LOD/*将变量值置于栈顶*/
(3)STO/*将栈顶的值赋与某变量*/
(4)CAL/*用于过程调用的指令*/
(5)INT/*在数据栈中分配存贮空间*/
(6)JMP,JPC/*用于if,while语句的条件或无条件控制转移指令*/
(7)OPR/*一组算术或逻辑运算指令*/
上述指令的格式由三部分组成:
F
L
A
其中,f,l,a的含义见下表:
F
L
a
INT
———
常量
LIT
———
常量
LOD
层次差
数据地址
STO
层次差
数据地址
CAL
层次差
程序地址
JMP
———
程序地址
JPC
———
程序地址
OPR
———
运算类别
表2-1PL处理机指令
上表中,层次差为变量名或过程名引用和声明之间的静态层次差别,程序地址为目标数组code的下标,数据地址为变量在局部存贮中的相对地址。
PL的编译程序为每一条PL源程序的可执行语句生成后缀式目标代码。
这种代码生成方式对于表达式、赋值语句、过程调用等的翻译较简单。
如赋值语句X:
=YopZ(op为某个运算符),将被翻译成下面的目标代码序列:
(设指令计数从第100号开始)
No.
f
L
a
100
LOD
Level_diff_Y
Addr_Y
101
LOD
Level_diff_Z
Addr_Z
102
OPR
——————
op
103
STO
Level_diff_X
Addr_X
而对if和while语句稍繁琐一点,因为此时要生成一些跳转指令,而跳转的目标地址大都是未知的。
为解决这一问题,我们在PL编译程序中采用了回填技术,即产生跳转目标地址不明确的指令时,先保留这些指令的地址(code数组的下标),等到目标地址明确后再回过来将该跳转指令的目标地址补上,使其成为完整的指令。
下表是if、while语句目标代码生成的模式。
(L1,L2是代码地址)
ifCthenS
WhileCdoS
条件C的目标代码
JPC--L1
语句S的目标代码
L1:
...
L1:
条件C的目标代码
JPC–L2
语句S的目标代码
JMPL1
L2:
...
表2-2if-while语句目标代码生成模式
相关过程(函数)有:
gen(),其任务是把三个参数f、l、a组装成一条目标指令并存放于code数组中,增加CX的值,CX表示下一条即将生成的目标指令的地址。
2.5代码执行
为了简单起见,我们假设有一个PL处理机,它能够解释执行PL编译程序所生成的目标代码。
这个PL处理机有两类存贮、一个指令寄存器和三个地址寄存器组成。
程序(目标代码)存贮称为code,由编译程序装入,在目标代码执行过程中保持不变,因此它可被看成是“只读”存贮器。
数据存贮S组织成为一个栈,所有的算术运算均对栈顶元和次栈顶元进行(一元运算仅作用于栈顶元),并用结果值代替原来的运算对象。
栈顶元的地址(下标)记在栈顶寄存器T中,指令寄存器I包含着当前正在解释执行的指令,程序地址寄存器P指向下一条将取出的指令。
PL的每一个过程可能包含着局部变量,因为这些过程可以被递归地调用,故在实际调用前,无法为这些局部变量分配存贮地址。
各个过程的数据区在存贮栈S内顺序叠起来,每个过程,除用户定义的变量外,还应当有它自己的内部信息,即调用它的程序段地址(返回地址)和它的调用者的数据区地址。
在过程终止后,为了恢复原来程序的执行,这两个地址都是必须的。
我们可将这两个内部值作为位于该过程数据区的内部式隐式局部变量。
我们把它们分别称为返回地址(returnaddress)RA和动态链(dynamiclink)DL。
动态链的头,即最新分配的数据区的地址,保存在某地址寄存器B内。
因为实际的存贮分配是运行(解释)时进行的,编译程序不能为其生成的代码提供绝对地址,它只能确定变量在数据区内的位置,因此它只能提供相对地址。
为了正确地存取数据,解释程序需将某个修正量加到相应的数据区的基地址上去。
若变量是局部于当前正在解释的过程,则此基地址由寄存器B给出,否则,就需要顺着数据区的链逐层上去找。
然而遗憾的是,编译程序只能知道存取路线的表的长度,同时动态链保存的则是过程活动的动态历史,而这两条存取路线并不总是一样。
例如,假定有过程A,B,C,其中过程C的说明局部于过程B,而过程B的说明局部于过程A,程序运行时,过程A调用过程B,过程B则调用过程C,过程C又调用过程B,如下图所示:
图2-1过程说明嵌套图过程调用图表示A调用B
从静态的角度我们可以说A是在第一层说明的,B是在第二层说明的,C则是在第三层说明的。
若在B中存取A中说明的变量a,由于编译程序只知道A,B间的静态层差为1,如果这时沿着动态链下降一步,将导致对C的局部变量的操作。
为防止这种情况发生,有必要设置第二条链,它以编译程序能明了的方式将各个数据区连接起来。
我们称之为静态链(staticlink)SL。
这样,编译程序所生成的代码地址是一对数,指示着静态层差和数据区的相对修正量。
下面我们给出的是过程A、B和C运行时刻的数据区图示:
DLRASL
A的变量
B的变量
C的变量
B的变量
有了以上认识,我们就不难明白PL源程序的目标代码是如何被解释执行的。
以语句X:
=YopZ为例,(该语句的目标代码序列我们己在2.4节给出),PL处理机解释该指令的“步骤”如下:
step1,
S[++T]←S[base(level_diff_Y)+addr_Y];
//将变量Y的值放在栈顶
step2,
S[++T]←S[base(level_diff_Z)+addr_Z];
//将变量Z的值放在栈顶,此栈顶元为变量Y的值
step3,
T--;
//栈顶指针指向次栈顶元,即存放结果的单元
step4,
S[T]←S[T]opS[T+1];
//变量Y和变量Z之间进行“op”操作
step5,
S[base(level_diff_X)+addr_X]←S[T];
//将栈顶的值存放到变量X所在的单元
step6,
T--;
//栈顶指针减一
相关过程:
base(),interpret()。
其中base()的功能是根据层次差并从当前数据区沿着静态链查找,以便获取变量实际所在的数据区其地址;interpret()则完成各种指令的执行工作。
2.6错误诊断处理
一个编译程序,在多数情况下,所接受的源程序正文都是有错误的。
发现错误,并给出合适的诊断信息且继续编译下去从而发现更多的错误,对于编译程序而言是完全必要的。
一个好的编译器,其特征在于:
◆任何输入序列都不会引起编译程序的崩溃。
◆一切按语言定义为非法的结构,都能被发现和标志出来。
◆经常出现的错误,程序员的粗心或误解造成的错误能被正确地诊断出来,而不致引起进一步的株连错误。
根据这样的要求,我们为PL编译程序制定了以下两条规则:
(1)关键字规则;程序员在写程序时,可能会因为粗心而漏掉语句的分隔符——“;”,但他决不会漏掉算术运算符“+”,对于编译程序而言,不论是分隔符号类的符号还是关键字符号类的符号,它们都具有同等重要的地位。
基于这样的特点,我们可以采用不易出错的部分来作为恢复正常步调的标记。
每当遇到错误时,分析程序跳过后面的某些部分,直到出现所期望的符号为止。
对于程序设计语言来说,这种符号(称为同步符号)的最好选择就是关键字。
PL的每一种构造语句以begin、if或while开头;每种说明则以var、const或procedure开头。
每遇到错误时,编译程序便可跳过一段程序,直到遇到这类符号为止,而继续编译。
(2)镇定规则;自顶向下分析的特点在于目标对分成一些子目标,分程序则用别的分析程序来处理其子目标。
镇定规则是说一个分析程序发现了错误,它不应该消极地停止前进,仅仅向调用它的程序报告发生的错误;而应该自己继续向前扫描,找到似乎可以使正常的分析得以恢复的地方。
这一规则在程序设计上的含义就是任一分析程序除了正常终止外,没有其它出口。
对于镇定规则,一个可能的严格解释为:
一旦发现非法结构,即跳过后面的输入正文,直到下一个可以正确地跟随当前正在分析的句子结构的符号为止。
这意味着每一分析程序需知道其当前活动结点的后继符号集合。
为了找到这个后继符号集合,我们给对应语法图的每一个分析过程提供一个显式参数,set,它指明可能的后继集合。
不过在任何条件下,如果都跳到输入正文中下一个这种后继符号出现的地方,未免太短视了。
程序中所含的错误可能只不过是漏掉了一个符号(如“;”)而己,由此而忽略去源程序的符号集合中,再凑加一些关键字,它们用于标记那些不容忽略的结构的开始符,因此,作为参数传递给分析过程的那些符号就不仅是后继符号了。
对于这样的符号集,我们采用这样的计算策略:
先用一些明显的关键符号给它赋初值,然后随着分析子目标的层次深入,逐步补充别的合法符号。
为了灵活起见,我们引入test子程序来实现所说的验证工作。
test过程有三个参数:
(1)可允许的下一个符号集