第一章内容回顾

语言与语言的翻译 编译器的基本组成编译器的分析/综合模式(编译器基础架构) 扫描遍数编译器的编写第一章内容回顾

C语言赋值语句： position = initial + rate 60 符号表 . . . 1 position . . . 2 initial . . . 词法分析器 3 rate id, 1=id, 2+id, 360 第二章词法分析——简介  字符流  记号流词法分析：扫描构成源程序的字符流，按词法规则把它们组成记号流

第二章词法分析——简介 • 词法分析器的作用与工作方式词法分析器是编译器中唯一与源程序打交道的部分。 • 滤掉源程序中的无用成分，如注释、空格、回车等； • 处理与平台有关的输入，如文件结束符的不同表示等； • 识别记号，并交给语法分析器； • 调用符号表管理器或出错处理器，进行相关处理。工作方式: (1)单独扫描，(2)作为语法分析器的子程序，(3)并行工作

第二章词法分析——简介 两个概念： • 词法规则（构词规则）：规定单词形成的规则相当于立法，规定语言所允许的合法单词 • 词法分析：根据词法规则识别输入序列相当于执法，识别出合法的单词、指出非法的输入序列主要内容 • 词法分析中的若干问题 • 模式的形式化描述 • 记号的识别 • 从正规式到词法分析器 x := y + z * 60.0 ; <id,1> := <id,2> + <id,3> * <60.0> ; 字符流到记号流

第二章词法分析——单词 • 单词（组成程序的元素） public class TestOfDeclared { public static void main(String[] args) { try{ ListOfNumbersDeclared list = new ListOfNumbersDeclared(); list.writeList(); }catch(Exception e){}; System.out.println("A list of numbers is created and stored in OutFile.txt"); } }

第二章词法分析——单词 • 单词的基本分类： • 关键字（保留字）， kw (key word, or reserved word) • 在程序设计语言中有着固定的意义 • while, if, else, for, class • 不允许用它们再表示其它的意思 • 标识符 id (identifier) • 程序设计语言中最大的一个类别 • 为实体起个名字，便于之后的称呼和使用 • 可以用标识符命名的实体包括：类型名、变量名、过程名、常量名、类名、对象名、程序包名等 • 字面量 literal，num • 直接以其字面所表示的常量 • 25，true，“This is an apple” • 注意：字面量和常量的区别（常量可以是字面量，也可以是常量名，pi） • 特殊符号 ks (key symbol, or special symbol) • 类似于自然语言中的标点符号，每个符号都有各自的特殊用途 • +，-，*等

第二章词法分析——单词 [例2.1]语句position := initial + rate * 60 记号id ks id ks id ks number 问题：一个单词究竟是标识符、关键字、字面量还是特殊符号？根据构词规则来产生和识别将产生和识别单词的规则称为模式，按照某个模式识别出的元素称为记号(token)，而单词指被识别出元素自身的值。

第二章词法分析——单词 三个术语： • 模式(pattern)：产生和识别元素的规则 • 记号(token)：按照某个模式(或规则)识别出的元素(一组) （记号的类别可以用整型编码表示，例01表示const） • 单词(lexeme)：被识别出的元素自身的值(一个)，也称为词值

第二章词法分析——记号 • 记号记号是按照某个模式识别出的元素。赋值句position := initial + rate * 60 position、initial和rate均为标识符，种类均是id。问题：当识别出一个id时，如何判定是哪个id ？当识别出一个relation时，究竟是 = 还是 < ？记号＝记号的类别＋记号的属性 [例2.2]表达式 mycount > 25 由三个记号组成类别 82 81 83 属性 “mycount” 5 25 注意：5？

第二章词法分析——模式 正规式正则表达式 Regular Expression

第二章词法分析——正则表达式 • 编译原理课所涉及到的第一个形式化的概念 • 正则表达式涉及到的概念有：字母表、字符串、语言，正则表达式 [例2.3]字母表∑={a, b, c} 字符串： ε, a, b, c, aa, ab, ac, ba, bb, bc,… ∑上所有字符串构成的语言L： L={ε, a, b, c, aa, ab, ac, ba, bb, bc, ...} ∑上所有字符串（模式非形式化的表达）形式化的表达： ∑* (正则表达式) 正则表达式表达的语言L(∑*)= {ε, a, b, c, aa, ab, ac, ba, bb, bc, ...}

第二章词法分析——正则表达式 字符串：字母表上的字符构成的串相关术语示例长度：|S| |abc| = 3 ε |ε| = 0 连接：S1S2 abc def = abcdef 多次连接：Sn (abc)3 = abcabcabc S的前缀X abc的前缀有：ε，a，ab, abc S的后缀X abc的后缀有：ε，c，bc, abc S的子串X abc的子串有： ε，a，b, c, … S的真前缀abc的真前缀有：a，ab S的真后缀？ S的真子串？ S的子序列Xabdf是abcdef的一个子序列

第二章词法分析——正则表达式 若 L = {a, b}, M = {c, d}，则 LM = {ac, bc, ad, bd}，L∩M = Φ L* = {ε, a, b, aa, bb, ab, ba, aaa, ...} L+ = { a, b, aa, bb, ab, ba, aaa, ...}

第一章内容回顾

第一章内容回顾

Presentation Transcript