第五章语义分析和中间代码的表示

第五章语义分析和中间代码的表示 语义分析的概念语法制导翻译方法属性文法几种常见的中间代码表示

第一节语义分析的概念 • 语义分析：即审查每个语法成分的静态语义。 • 在早期的一些编译程序中，是在语法分析的基础上根据源程序中各语法成份的语义，直接产生机器语言或汇编语言形式的目标代码。 • 现在的编译系统一般都将经过语法分析的源程序先翻译为某种形式的中间语言代码，然后再将其翻译为目标代码。 • 优点： • 使编译程序各组成部分功能更单一; • 使得编译程序的逻辑结构更为清晰，从而使编译程序更易于编写与调整;同时为代码优化和程序的可移植性提供了条件

在语义分析时也要进行语义检查，编译时的语 义检查是静态语义检查，包括： • 类型检查，如参与运算的操作数的类型应相容。 • 控制流检查，用以保证控制语句有合法的转向点。如C语言中不允许goto语句转入case语句流。 • 一致性检查，如case语句的标号不能相同。

第二节语法制导翻译 • 对文法中的每个产生式都附加一个语义动作或语义子程序,在语法分析过程中，每当需要使用一个产生式进行推导或归约，语法分析程序除执行相应的语法分析动作外，还要执行相应的语义动作或调用相应的语义子程序。 • 这种模式实际上是对前后文无关文法的一种扩充。

语法分析栈 语义分析栈 T T.Val + ‘+’ E … … # • 例如,文法G[E]: 产生式语义动作 E→E(1)+T {E.Val=E(1).val+T.val;} E→T {E.Val=T.Val;} T→digit {T.Val=digit;} • 为了能在语法分析过程中平行地进行语义处理，可在语法分析栈旁边并行地设置一个语义信息栈。

第三节属性文法 • 产生式的语义是由组成该产生式的文法符号的语义所决定的。 • 我们可将这些语义以“属性”的形式附加到各个文法符号上，再根据产生式所蕴含的语义，给出每个文法符号的属性的求值规则，从而形成一种附带有语义属性的前后文无关文法，即属性文法。

1、定义 属性文法=上下文无关文法+属性+求值规则 • 属性是用来描述文法符号的语义特征，如常量的“值”、变量的类型和存储位置等。 • 求值规则（属性计算规则）与产生式相关联的反映文法符号属性之间关系的 “规则”。 • 求值规则还可进一步扩展为语义规则（语义动作）。

语义规则 产生式 Print(E.val) L→ E E.val:=E（1）.val+T.val E → E（1）+T E → T E.val:=T.val T →T（1） * F T.val:=T（1）.val  F.val T → F T.val:=F.val F → (E) F.val:=E.val F → digit F.val:=digit.lexval 例：简单表达式的属性文法。

2、属性的分类 若产生式AX1X2…Xn，与之相关的属性计算规则 b := f ( c1, c2, … )，其中f是函数，b和c1, c2, …, ck是该产生式文法符号的属性，－如果属性b是产生式左部符号A的属性， c1 , c2 , …, ck是产生式右部文法符号的属性或A的其它属性,则称其为A的综合属性；－如果属性b是产生式右部符号Xi的属性，c1 , c2 , …, ck是产生式右部文法符号的属性或A的属性则称其为Xi的继承属性；－终结符仅有综合属性,如digit.lex_val。通常由词法程序提供。而开始符号没有继承属性。

几点说明： • 继承属性用于“自上而下”传递信息。 • 继承属性由相应语法树中结点的父结点和/或兄弟结点属性计算得到，它反映了对上下文依赖的特性。 • 继承属性可以很方便地用来表示程序设计语言上下文的结构关系。

几点说明（续）： • 综合属性用于“自下而上”传递信息。 • 综合属性由相应语法树中结点的分枝结点属性计算得到，即沿语法树向上传递，从分枝（子）结点到根结点。思考：简单表达式文法中的属性各是什么类型的？

A.b A X1.c1 X2.c2 … Xn.cn X1.c1 X2.c2 Xk.b … Xn.cn 继承属性Xk.b的计算综合属性A.b的计算

注释分析树 • 在语法树中,将每个结点均视为由若干个域组成的结构,则可将其中的一些域用来存放相应文法符号诸属性之值，并可用属性来为这些域命名。通常我们将每个结点都标注相应属性值的语法树称为注释分析树（Decorated Syntax Tree）。 • 属性求值的过程：在注释分析树中，一个文法符号X在相应结点的综合属性之值，由其子结点的属性和（或）X的其它属性，通过相关属性规则经计算而得，故综合属性的求值在语法树中是按自下而上的方式进行的；X的继承属性之值则由X的父结点和(或)其它兄弟结点来定义,故继承属性的求值将按自上而下的方式进行。

L E.val = 18 E.val = 8 T.val = 10 + F.val = 2 T.val = 5 * T.val = 8 digit.lexval = 2 F.val = 5 F.val = 8 digit.lexval = 8 digit.lexval = 5 例：8+5*2 的注释分析树。（综合属性）

分析树各结点属性的计算可以自下而上地完成 L E.val = 18 E.val = 8 T.val = 10 + F.val = 2 T.val = 5 * T.val = 8 digit.lexval = 2 F.val = 5 F.val = 8 digit.lexval = 8 digit.lexval = 5

注释分析树:结点的属性值都标注出来的分析树注释分析树:结点的属性值都标注出来的分析树 L E.val = 18 E.val = 8 T.val = 10 + F.val = 2 T.val = 5 * T.val = 8 digit.lexval = 2 F.val = 5 F.val = 8 digit.lexval = 8 digit.lexval = 5

例：语句int id,id,id的语义分析。（继承属性）

D L.in = integer T.type = integer , L.in = integer id3 int , L.in = integer id2 id1 1、int id1, id2, id3的注释分析树

D T L in type , int L id3 in entry , L in id2 entry id1 entry 2、int id1, id2, id3的分析树的属性依赖图

3、属性计算次序 • 对结点进行拓扑排序，按拓扑排序的次序计算属性。 • 拓扑排序：结点的一种排序，使得边只会从该次序中先出现的结点到后出现的结点。

D T L in 5 4 type 6 , int L id3 in 7 8 3 entry , L in 9 10 id2 2 entry id1 1 entry 属性计算次序为1，2，3，4，5，6，7，8，9，10

在上例中，按照拓扑排序可以得到下面的程序 段（用an来代表依赖图中与序号n的结点有关的属性）： 4) a4:=int 5) a5:=a4 6) addtype(id3.entry,a5) 7) a7:=a5 8) addtype(id2.entry,a7) 9) a9:=a7 10) addtype(id1.entry,a9)

思考： 如何通过对注释分析树进行树遍历的方法计算属性值？最常用的是深度优先、从左到右的遍历方法。

小结：语法制导翻译的一般过程 语义规则和产生式联系起来： • 对翻译给出高级说明 • 根据属性和计算规则，进行语义分析输入单词符号串构造注释分析树构造属性依赖图，对结点进行拓扑排序根据语义规则的进行计算和处理

第四节中间代码的形式 • 抽象语法树 • 逆波兰式 • 三地址代码（四元式、三元式）

1、抽象语法树 • 语法树是分析树的浓缩表示：算符和关键字是作为内部结点。 • 语法制导翻译可以基于分析树，也可以基于语法树。 • 在抽象语法树表示中，每一个叶结点都表示诸如常量或变量这样的运算对象，而其他内部结点则表示运算符。

+ if-then-else * 8 S2 B S1 2 5 • 语法树的例子：

2、逆波兰表示 • 波兰逻辑学家J.Lukasiewicz于1929年提出的一种表示表达式的方法。按此方法，每一运算符都置于其运算对象之后，故称为后缀表示。 • 表达式E的后缀表示递归定义如下：（1）如果E是变量或常数，则E的后缀表示即E自身。（2）如果E为E1 op E2形式，则它的后缀表示为E1’E2’op；其中E1’、E2’分别是E1和E2的后缀表示。若op是一元运算符，则视E1和E1’为空。（3）如果E为(E1)形式，则E1的后缀表示即为E的后缀表示。 • 特点:操作数出现的顺序与原来一致，而运算符则按运算先后的顺序放到相应的操作数之后，即运算符先后的顺序发生了变化，表达式中各个运算是按运算符出现的顺序进行的，故无须使用括号来指示运算顺序。

例：中缀表示后缀表示 A+B AB+ A+B*C ABC*+ (A+B)*(C+D) AB+CD+* x/y^z-d*e xyz^/de*- 程序语句的逆波兰表示略去。

3、三地址代码（四元式和三元式） • 四元式是一种更接近目标代码的中间代码形式，由于这种形式的中间代码便于优化处理，因此，在目前的许多编译程序中得到了广泛的应用。 • 四元式是一种“三地址语句”的等价表示。它的一般形式为：(op,arg1,arg2,result) 其中，op为一个二元(也可是一元或零元)运算符; arg1,arg2分别为它的两个运算对象，它们可以是变量、常数或系统定义的临时变量名；运算的结果将放入result中。四元式还可写为类似于PASCAL语言的赋值语句的形式：result := arg1oparg2

每个四元式只能有一个运算符，所以，一个复杂的表达式只能由多个四元式构成的序列表示。每个四元式只能有一个运算符，所以，一个复杂的表达式只能由多个四元式构成的序列表示。 • 例如，表达式A+B*C可写为序列 T1:=B*C T2:=A+T1 • 当op为一元、零元运算（如无条件转移）时，arg2甚至arg1应缺省，即result:=oparg1或 opresult；对应的一般形式为： (op,arg1,-,result) 或 (op,-,-,result) 。

例赋值语句a=b*(c+d)相应的四元式代码为： (1) (+,c,d,t1) (2) (*,b,t1,t2) (3) (=,t2,_,a)

为了节省临时变量的开销，有时也可采用一种三为了节省临时变量的开销，有时也可采用一种三元式结构来作为中间代码，其一般形式为： (i) (op,arg1,arg2) 其中，(i)为三元式的编号，也代表了该式的运算结果；op,arg1,arg2的含义与四元式类似。区别在于arg可以是某三元式的序号，表示用该三元式的结果作为运算对象。

例如，对于赋值语句a:=-b*(c+d)，若用三 元式表示，则可写成 ① (U_minus, b, - ) ② ( + , c, d ) ③ ( * , ①, ② ) ④ ( := , ③, a ) 式①中的运算符U_minus表示一元减运算。

4、其它表示法 • 除前面所述的抽象语法树、逆波兰式、四元式、三元式外，常见的中间语言还有接近PASCAL形式的P-代码，接近C格式的C-代码等等。

第五章语义分析和中间代码的表示