第七章句法结构模式识别

第七章句法结构模式识别 形式语言概述文法推断句法分析自动机理论误差校正句法分析

§7-1 形式语言概述 一、基本概念 1、字母表：与所研究的问题有关的符号集合。例：V1={A,B,C,D}, V2={a,b,c,d} 2、句子(链)：由字母表中的符号所组成的有限长度的符号串。 3、句子(链)的长度：所包含的符号数目。例: |a3b3c3|=9 4、语言：由字母表中的符号组成的句子集合，用L表示。例：字母表V={a,b} L1={ab,aab,abab} 有限语言 L2={anbm|n,m=0,1,2….}无限语言 5、文法：在一种语言中，构成句子所必须遵循的规则的集合，用G表示。L(G)表示由文法G构成的语言。

6、V*:由字母表V中的符号组成的所有句子的集合，包括空句子λ在内。例： V*＝{λ,01, 001} 7、 V＋:不包括空句子在内的句子集合，即V＋＝V*－(λ) 8、VT: 终止符，不能再分割的最简基元的集合，用小写字母表示。 VT={a,b,c} 9、 VN: 非终止符，由基元组成的子模式和句子的集合。用大写字母表示。VN={A,B,C} VT，VN的关系： VT∩VN= Φ(空集) VT∪VN= V（全部字母表） 10、产生式(再写规则)P：存在于终止符和非终止符间的关系式。例： α→β， α∈ VN，β∈ VN, VT. 11、文法的数学定义：它是一个四元式，由四个参数构成。 G={VN, VT, P, S}

二. 短语结构文法 1.0型文法（无限制）设文法G = (VN,VT, P, S) VN ：非终止符，用大写字母表示 VT：终止符，用小写字符表示 P：产生式 S：起始符产生式P：α→β，其中α∈V+，β∈V* α，β无任何限制 ( V+不包括空格,V*包括空格) 例：0型文法 G = (VN,VT, P, S) VN = {S, A, B} VP = {a, b, c} P: ① S→aAbc ②Ab→bA ③ Ac→Bbcc ④ bB→Bb ⑤ aB→aaA ⑥ aB→λ(空格)

① ② ③ ④ ⑥ S→Aa bc→abAc→abBbcc→aBbbcc→ bbcc 此文法可以产生：X=anbn+2cn+2 n≥0 X|n=0=bbcc 由0型文法产生的语言称为0型语言。 2. 1型文法（上下文有关文法）设文法G = (VN,VT, P, S) 产生式P：α1Aα2→α1βα2 其中A∈VN，β∈V+, α1,α2∈V* |α1Aα2|≤|α1βα2|, 或|A|≤|B| 由上下文有关文法构成的语言称为上下文有关语言，用L(G1)表示，G1：上下文有关文法

例：G = (VN,VT, P, S) VN = {S, B, C} VT= {a, b, c} P: ① S→aSBC ② CB→BC ③ S→abC ④ bB→bb ⑤ bC→bc ⑥ cC→cc λ1Sλ2→λ1aSBCλ2, bBλ→bbλ 对于S→aSBC ∵α1= λ, α2= λ, A = S, B=aSBC,并且|S|<|aSBC| ∴符合1型文法规则对于bB→bb ∵α1= b, α2= λ,A = B, B=b,并且|B| ≤ |b| ∴也符合1型文法规则产生式都符合1型文法的要求

① ③ ② ④ ⑤ ⑥ S→aSBC→aabCBC→abbBCC→aabbCC→aabbcC→aabbcc ∴X=a2b2c2 此文法G可产生的语言：L(G)={anbncn|n=1,2...} 假设基元语言L(G)可以描述不同的三角型 X= abc X= a2b2c2 a b c c b c b c b a a a

2 . 2型文法（上下文无关文法） 设文法G = (VN,VT, P, S) 产生式P：A→β 其中A∈VN（且是单个的非终止符) β∈V+ (可以是终止符，非终止符，不能是空格) 对产生式的限制比较严格由上下文无关文法构成的语言称为上下文无关语言。例：文法G = (VN,VT, P, S) VN = {S, B, C} VT = {a, b} P: ① S→aB ② S→bA ③ A→a ④ A→aS ⑤ A→bAA ⑥ B→b ⑦ B→bS ⑧B→aBB

⑦ ① ⑥ ① ③ ② ④ ① ⑥ ② ③ ② aB→abS→abaB→abab S abbA→abba bA→baS→baaB→baab babA→baba 例：G = (VN,VT, P, S) VN = {S, T, F} VT = {a, +,*,(,)} P: ① S→S+T ② S→T ③ T→T*F ④ T→F ⑤ F→(S) ⑥ F→a S→S+T→T+T→F+T→a+T→a+T*F→a+F*F→a+a*F→a+a*a ① ② ④ ⑥ ③ ④ ⑥ ⑥

两种方法替换非终止符： ① 最左推导：每次替换都是先从最左边的非终止符开始，例如上边的例子。我们经常采用最左推导。 ② 最右推导：每次替换都是先从最右边的非终止符开始，例如： S→S+T →S+F →S+a → T+a → F+a → a+a

3. 3型文法（有限状态文法） 文法 G = (VN,VT, P, S) 产生式P：A→aB 或A→a，（对产生式限制最严格）其中A,B∈VN（且是单个字符），a∈VT(且是单个字符) 由3型文法产生的语言成为3型语言。例：文法G = ({S, A},{0, 1}, P, S) P: ① S→0A ② A→0A ③ A→1 S→0A→00A→000A→0001 L(G)={0n1|n=1,2...} 例：构造文法G能产生语言L(G) = {x|x=0n 10m | n,m>0} 解：G = (VN,VT, P, S) VT=(0,1) P: ① S→0B ② B→0B ③ B→1S ④ B→0 ∴VN=(S, B)

四种文法的关系 : 包含关系：限制不严格的文法必然包含限制严格的文法。 0型 1型 2型 3型

头头 h 基元b 三. 图象描述语言（PDL） 1970年，Show提出图像描述语言任何图象都可用头尾来表示定义了四种二元连接算子 1. a + b 2. a x b 3. a – b 4. a * b t 尾尾 h b a a头与b尾相连 t h b a a尾与b尾相连,形成两个头 t h a t h b a头与b头相连，形成一头二尾 t h t h a头连b头, a尾连b尾，形成一头一尾 t

h t b ~b t h 一元算子~ 一个基元的头或尾可以与另一基元的头或尾相连而成为模式串，并可设置一些较复杂的联结关系和进行各种运算。例：文法G = (VN,VT, P, S) VT = { →, ↗ , ↘, ↓,(),+, -, x, *, ~ } VN= {S,A,B,C} P: ① S→A ② S→B ③ A→(b+(C+c)) ④ B→(d+(a+(~d))*C), ⑤ C→((b+c)*a) a b c d

b c c b a c a b d ~d L(G) = {(b+(((b+c)*a)+c)) ; ((d+(a+(~d)))*((b+c)*a))} 导出过程 a S S A B C b + d + c C + a + d a ~ b + c * b a + c *

求ＰＤＬ表达式的规则： • ①脱括号由内往外的次序进行，无括号由左向右进行 • ②对于连接基元组成基元结构，必须符合规定的连接点头，尾数目例：给出一个PDL文法 G = ({S,A,B,C,D,E},{a↗ ,b ↘, →,d ↓,(,),+,*,~}, P, S) P: ① S →(A+(B)) ② B →(C)+D ③ D →b ④ E →(a+b) ⑤ A →d ⑥C → E*c ⑦D → (~d) ⑧A →a c

① ⑧ ② ⑥ ④ ⑦ 可以导出手写大写字符“A”的四种表达式⑵⑶⑷ ⑴S →(A+(B)) →(a+(B)) →(a+((C)+D) ) →(a+((E*c)+D)) →(a+(((a+b)*c)+D)) →(a+(((a+b)*c)+(~d))) ⑵(d+(((a+b)*c)+b)) , ⑶(a+(((a+b)*c)+b)) , ⑷ (d+(((a+b)*c)+(~d))) a b a b b a b a c c a b ~d ~d d b a d ⑶ ⑷ ⑴ ⑵

四.标准形式文法 在句法分析和自动机的一些算法中，有时要求标准化文法，下面介绍二种标准文法。 1. 乔姆斯基(Chomsky)范式,一种上下文无关文法如果它的每个产生式P都符合二种形式： A→BC (A,B,C∈VN)或A→a (A∈VN, a∈VT) 该文法称Chomsky范式已知上下文无关文法 G = (VN,VT, P, S)用以下步骤产生Chomsky范式的等价文法 G = (VN, VT, , S) ①若Ｐ中已经是A→BC，A→a形式放入中 ②Ｐ中其它的产生式形式为A→ θ1θ2….θn 其中θi∈VN　或 θi∈VT

用下面的产生式集合代替： A→Y1Y2...n Y2...n→Y2Y3...n … Yn-1...n→Yn,,n-1 Yi∈VN 若θi ∈ VN,则令Yi=θi；若θi ∈ VT,再引入Yi→θi

例：把文法G = (VN,VT, P, S)变成Chomsky范式 VN = {S, A, B} VP = {a, b} P: S→AB，A→a, A→abABa，B→b ① 把S→AB，A→a,B→b放入中 ②A→abABa，A→θ1θ2θ3θ4θ5，其中θ1=θ5=a, θ2=b, θ3=A, θ4=B A→Y1Y2345, Y2345→Y2Y345, Y345→Y3Y45, Y45→Y4Y5, ∵θ3,θ4∈VN ∴ Y345→AY45, Y45→BY5, ∵ θ1θ2θ5∈VT ∴引入新的产生式，Y1→a, Y2→b, Y5→a

符合chomsky范式文法，文法G2 = (VN,VT, , S) VN = { Y1Y2345, Y2Y345, Y45, Y5, S, A, B} A→Y1Y2345, Y1→a, Y2345→Y2Y345, Y2→b,Y345→AY45, Y45→BY5, Y5→a, S→BA, A→a, B→b 若x=bababa 用G1导出：S→BA→bA→babABa→bababa, 用G2导出：S→BA→b Y1Y2345...→baY2345→ baY2Y345 →babY345 →babAY45 →babaY5 →bababY5 →bababa 用原文法G1只用四步可以导出bababa而用标准文法G2则用九步才导出

2. 格雷巴赫范式(Greibach) 若一个上下文无关文法具有P形式： A→aα, A∈VN, a∈VT, α∈VN*(带空格) 则此文法称为Greibach范式。例：上下文无关文法 G = (VN,VT, P, S) VN = {S,C}, VT = {a, b, c} P形式：S→aCbb, C→aCbb C→c 变成Greibach范式：C→cλ即C→c符合Greibach范式，不变 S→aCbb,用S→aCBB, B→b代替 C→aCbb,用C→aCBB, B→b代替符合Greibach范式： P: S→aCBB, C→aCBB, C→c, B→b,

五.高维文法：上面我们介绍的都是一维链（串）文法，为了描五.高维文法：上面我们介绍的都是一维链（串）文法，为了描述更复杂的图形、图象, 需要用高维文法,包括树文法，图文法, 网文法等等。 1. 树文法：定义：四元组 Gt = (v, r, P, S) 其中V=VN∪VT， r: 秩(一个节点的直接分支数) P形式：Ti→TjTi,Tj都是树由Gt产生的语言叫树语言。 L(Gt)={T| T∈T∑, Ti→T Ti∈S }, T∑是带有VT中结点的树集合扩展树文法：全部产生式形式其中x1, x2... xn∈VN,x∈VT， n∈r(x) 具有上面产生式形式的树文法称扩展的树文法。 Gt X x x1, x2… xn

a b 例：Gt = (v, r, P, S) V=VN∪VT＝（S,A,B,K,a,b） VT＝( →, ↗ ), r(a)=(2,0), r(b)=(2,0), r(k)=2 P: ① S→K ② A→a ③ B→b ④ A→a ⑤ B→b ∴ S→K A B A B A B ① S→K ① b 导出树 A B k ② ③ a b A B a 导出图 ④ ⑤ A B A B a b a ④ ⑤ ④ ⑤ k b a b a b

b 例2：在氢云室内用正粒子打击核目标碰撞发出的射线可以用树文法来描述。树文法Gt = (v, r, P, S) ，VN＝（S,A,B）， VT＝(a, b) 基本定义： P: (凹弧) (凸弧) a S → a S → a S → a S → a | S A A A B B B A B A A B B A → a A → a B → a B → a | | A B

射线图： a S → a b a a r(a)=(0,1,2,4,6), r(b)=(0,1) 射线导出树： a a a a a b a a b b a b a a b b a b a a b b a b a a b b a b

St=(x1, x2… xt) Gt 样本集推断算法 §7-2 文法推断根据已知L(G)样本集导出未知文法G的过程。 (一)基本定义： 1.若在产生式中至少有一个产生式存在以下形式： Ai→αiAiβi 此文法G = (VN, VT, P, S) 是循环文法或不确定，由它产生的语言L(Gt)为无限的。 2.若文法G为不循环的，则必为确定的，且L(G)为有限的。导师

3.当L(GA)= L(GB)时，则GA与GB等效，等价。 例：有限状态文法GA = (VN,VT, P, S), VN = {S}, VT = {0, 1} P: S→0S ,S→1 则L(GA)={0n1|n=1,2,…} 上下文无关文法GB = (VN,VT, P, S), VN = {S，A}, VT = {0, 1} P: S→A1 , A→AA , A→0则L(GB)={0n1|n=1,2,…} ∴ L(GA)= L(GB) ∴ GA与GB等效 4.S+是L(G)的子集，即S+∈L(G)，称为正取样，是子集，记为称为负取样， 5.若正取样S+=(x1, x2….. xi)= L(G)，称为S+是完备的，负取样 = (x1, x2….. xi) = , 称也是完备的，且St=(S+,S-)=(x1, x2….. xi)=( L(G), )也是完备的。

S 0 (二) 有限状态文法推断状态图表示方法，文法可以用图来表示例：G = (VN,VT, P, S) VN = {S, A, B, C} VT = {0, 1} P: ① S→0A ② A→0A ③ B→0 ④ B→0B ⑤ S→1B ⑥ A→1B ⑦ C→0C ⑧S→1C ⑨ A→1 ⑩ C→1 T：附加状态此文法可以产生的字符串 x1=00n1, x2=0n+110m+1, x3=10n+1, x4=10n1 1 1 0 0 1 0 A C B 0 1 1 T

一.规范确定文法 已知正取样S+=(x1, x2….. xn) 推断规范文法Gc = (VN,VT, PL, S)的步骤如下： ①VT = S+中不同的终止符 ② 设xi= ai1ai2... ain链 ∴PL: S→ai1Zi1 Zi1∈VN, ai1∈VT Zi1→ai2Zi2 Zi2∈VN, ai2∈VT … ZIn-2→ain-1Zi n-1 Zin-1∈VN, ain-1∈VT ZIn-1→ain ain∈VT ∴VN={S, Zi1,Zi2,... Zin-1, } 此文法产生的语言是确定的，有限的，且有性质：L(GL)=S+

例：已知S+=(01，100，111，0010) ①VT ={0，1} ②∵x1=01, ∴ S→0Z1, Z1→1 x2=100, S→1Z2, Z2→0Z3, Z3→0 x3=111, S→1Z4, Z4→1Z5, Z5→1 x4=0010, S→0Z6, Z6→0Z7, Z7→1Z8, Z8→0 ∴VN={S, Z1,Z2,... Z8 } 推断出的文法为： Gc = (VN,VT, Pc, S) VN={S, Z1,Z2,... Z8, }, VT ={0，1} PL: S→0Z1, Z1→1, S→1Z2, Z2→0Z3, Z3→0, S→1Z4 Z4→1Z5, Z5→1, S→0Z6, Z6→0Z7, Z7→1Z8, Z8→0,

S 0 1 0 Z6 1 Z4 0 Z2 状态图：显然对任一有限取样都可用此法推断出规范文法，方法简单，适用计算机运算。缺点是非终止符太多，产生式也多。 1 0 Z1 Z7 Z5 Z3 1 0 1 1 Z8 T 0

二.导出文法（简化规范文法） 设：Gc为规范文法，非终止符集合VN={S,Z1,Z2,... Zn }, 把VN分成r个子集: VND={Bj,B1,B2... Br} S∈Bj, Zi∈Bj 这些子集满足： Bj∩Bk=Ф, j≠k ∪Bj = VN 定义导出文法GD = (VND,VT, PD, Bs)是由规范文法Gc产生的文法，导出规则如下： ① VT相同 ② VND = (Bs, B1, B2,…Br) ③ Bs为起始符，Bs=S ④ PD定义: a. 若Zα→αZβ在Pc中，则PD中有 Bi→αBj,Za∈Bi, Zβ∈Bj b. 若Zα→a在Pc中，则PD中有Bi→a,Za∈Bi r j=s

例：S+=(01，100，111，0010) 规范文法Gc = (VNC,VT, Pc, S) VNC = {S, Z1, Z2,…Z8} 对VNC分割为： VND = {(S), (Z1, Z6, Z7), (Z2, Z3, Z8),( Z4, Z5)}={ Bs, B1, B2, B3} 对于S→0Z1 ∵ S∈BS , Z1 ∈B1 ∴ PD中有BS→0B1 对于Z1→1∵ Z1 ∈ B1 ∴ PD中有B1→1 同理：BS→1B2，B2→0B2, B2→0, BS→1B3，B3→1B3，B3→1 BS→0B1，B1→0B1，B1→1B2，B2→0 把相同的产生式合并后有： Pc： BS→0B1， BS→1B2， BS→1Bs, B1→1， B1→0B1， B1→1B2， B2→0B2, B2→0, B3→1B3，B3→1

B5 0 1 1 1 1 0 0 B2 B3 状态图导出文法等效规范文法 L(GC)=L(GD) 这种方法由于分割方式不同会导出不同的文法而分割方式又无系统理论作指导，而靠经验和试探。 B1 1 0 1 T

三.形式微商文法 形式微商定义：集合A对于符号a∈VT的形式微商是：DaA={X|ax∈A } 若a=λ(空串)，则DλA=A 例：A=S+={01,100,111,0010} 则D0A= D0S+={1，010} D1A= D1S+={00，11} 扩展：二次微商Da1a2A=Da2(Da1A) n次微商： Da1a2…an－1anA= Dan(Da1a2…an－1)A 对上例： D00 S+= D0 (D0 S+) = D0 (1.010)=(10) D11 S+= (1) D000 S+ =Φ , D100 S+={λ}

已知正取样S+={x1, x2,...xn}T 形式微商文法GCD = (VN,VT, P, S),定义如下： ① VT =（S＋中不同的符号） ② VN = U=(U1, U2,…UP) 其中Ui( i=1,2…p)是S+的形式微商，且令U1=DλS＋ ③ 起始符，S=U1=DλS＋ ④ 令Ui,Uj∈VN P: 当DaUi= Uj, 则Ui→aUj 当λ∈DaUi，则Ui→a

例：S+={101,111},推断形式微商文法如下： ① VT =（0,1） ② DλS＋= S＋ ={101,111}= U1=S 起始符 ③∵D1S＋ ={01,11}= D1S= U2 ∴S→1U2 ∵D10S＋ = D0(D1S＋)= D0U2={1}= U3 ∴U2→0U3 ∵D11S＋ = D1(D1S＋)= D1U2={1}= U3 ∴U2→1U3 ∵D101S＋ = D1(D10S＋)= D1U3={λ} ∴U3→1 ∵D111S-＋ = D1(D11S＋)= D1U3={λ} ∴U3→1 形式微商文法为(相同产生式合并)： GCD = (VN,VT, P, S) VT =（0,1）VN =（S, U2, U3） P: S→1U2, U2→1U3, U2→0U3, U3→1 状态图为： S 1 U2 U3 T 1 0.1

四.k-尾文法：对形式微商文法进行长度限制，并对等价状态进行合并四.k-尾文法：对形式微商文法进行长度限制，并对等价状态进行合并 k尾定义：ф(U,A,k)={X|X∈DaA |X|≤k} 形式微商文法中两个状态间的等效性的充要条件为： ф(XiS+k)= g(XjS+k)-k尾相等利用k尾等效把形式微商文法中的等效状态合并，导出k尾文法。例：S+={01,1001} ① 先求形式微商文法 ∵DλS+= S+={01,1001}= U1=S D0S+={1}= U2 ∴ S→0U2 D01S+= D1(D0S+)= D1U2={λ} ∴U2→1 D1S+={001}= U3 ∴ S→1U3 D10S-= {01}= D0U3=U4∴ U3→0U4 D100S+= {1}=D0U4= U5∴ U4→0U5 D1001S+= {λ} ∴ U5→1

②求k尾等效状态：|X|≤k k=4, k=3, k=2, k=1 U1=DλS+= {01,1001}，{01}，{0,1}，{ф} U2=D0S+= {1}， {1}， {1}， {1} U3=D1S+= {001}， {001}, {ф}，{ф} U4=D10S+= {01}， {01}， {01}，{ф} U5=D100S+= {1}， {1}， {1}， {1} 等效状态为 k=4, k=3, k=2, k=1 (U2, U5) (U1, U4) (U1, U4) (U1,U3, U4) (U2, U5 ) (U2, U5) (U2,U5,) ③合并状态，导出k尾文法 k=4时 S→0U2 , U1→1, S→1U3 , U3→0U4, U4→0U2 k=3,2时 S→0U2 , U2→1, S→1U3 , U3→0S k=1时 S→0U2 , U2→1, S→1S , S→0S

S 1 0 1 0,1 0 S S 0 U3 1 U3 U2 0 0 T 状态图讨论：推断k－尾文法时， k尾的选择很重要， k小时文法简单，但循环产生式增多，这样就可以导出更多的S+ 以外的子串来，有时这是不允许的。 0 U2 U4 U2 K=2,3 1 T 1 K=1 K=4 T

X11 X12 ... ... X1n X21 X22 ... ... X2n ... ... ... ... ... Xn1 Xn2 ... ... Xnn 三.树文法推断一棵树可以看成一个多枝的链。因此前边讲的链（串）文法的推断方法可以用在树文法的推断上。任何一个数字化的网络模板都可以用树结构来表示如下：由下面的四种方式表示成树枝全从根开始的树。树状的数字化网络模式树干 S S 根 M个枝 ….. ….. N个枝树干

根S 树枝树干 S ①树文法先选一个合适的树干，由树干推出一个链文法 ②再推各树枝的文法 ③把树干文法与树枝文法合并树干树枝

例：已知数字化模式 L1 L2 L3 L4 L5 L6 0 0 0 1 1 1 0 0 0 1 1 1 1 1 0 0 0 0 1 1 0 0 0 0 1 1 1 1 0 0 1 1 1 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 R1 R2 R3 R4 R5 R6 根S 树干

②上面推出树干文法GA,再推出树枝文法GL1, GL2... GL6,GR1, GR2,... GR6 ③再将树干文法与树枝文法合并GT= GA∪GL∪GR

§7-3 句法分析 一.用句法分析作模式识别设给定训练样本为M类即：ω1, ω2,… ωM 每类有N个样本，如ω1的训练样本为：S=(X1, X2,… XN)T 由这些样本可以推断出ω1类的文法G1 , 同样方法可推断出ω2类的文法G2 , ….ωM类的文法GM .对待识别句子X进行句法分析，若X属于由文法Gi构成的语言L(Gi)，则 x∈ωi类。框图如下：

X∈L{G1} G1 x X∈L{G2} X∈ωi 判决待识别句子识别结果 G2 …… X∈L{GM} GM 句法分析过程

X∈样本链码X1 X∈Xi 二句法分析的主要方法 1参考匹配法： 2状态图法：适用于有限状态文法例：G = (VN,VT, P, S) VT =（0,1）VN =（S, A, B, C） P: S→1A, S→0B, S→1C, A→0A, A→0 B→0, C→0C, C→0, C→1B X∈ωi x X∈L{G2} X∈样本链码X2 判决 …… X∈样本链码XN

S 1 1 0 0 由状态图可以知道此文法可以识别的句子 X1=10n+1 , X2=00 , X3=10n10, X4=10n+1 未知句子：由状态图可知 x1=10010(可以识别) x2=10110(不可以识别) 1 0 B C A 0 0 0 T 状态图

第七章 句法结构模式识别