知能情報システム特論正データからの極限同定 (1)

知能情報システム特論正データからの極限同定(1)知能情報システム特論正データからの極限同定(1) 山本章博京都大学情報学研究科知能情報学専攻 http://www.iip.ist.i.kyoto-u.ac.jp/member/akihiro/ akihiro@i.kyoto-u.ac.jp

計算論的な学習モデル 教師概念 M = M(P)に関する例示 M(Hi ) M = M(P) 　仮説(など) H1, H2, H3,… 例(データ) E1, E2, E3,… 学習機械例からを仮説を導出するアルゴリズム

概念と仮説 • U : 訓練例(観測事実)の表現からなる空間 • 論理プログラミングの場合は HB • 概念 : U の部分集合 • 論理プログラミングの場合は M Í HB • 仮説 : 個々の概念を表現する方法 • 論理プログラミングの場合は M = M(P) • 許容性：個々の概念は一つ以上の仮説で表現されている • 概念は，仮説をパラメータとした集合

極限同定モデルでの例の提示 • Mに関する例の提示：正例と負例の無限列 • 完全提示（完全データ）: Mに関する全ての正例と全ての負例が少なくとも1回出現する無限列 • 正提示（正データ）: Mに関する正例からなる提示で，全ての正例が少なくとも1回出現する無限列 E1, E2, E3, ... H1, H2, H3, ... HB M M(Hi) 正例負例

極限同定(identification in the limit)[Gold] • 学習アルゴリズム IIMが概念Cを極限において(EX)同定する Û Lの任意の完全提示に対して $N" n > NHn= P かつ M(P) = M . E1, E2, E3, ... H1, H2, H3, ... • 学習アルゴリズム IIMが概念クラス C を極限において(EX)同定する ÛC中の各概念を極限において同定する

正データ（正提示)からの極限同定 • M=M(P)に関する正提示（正データ）: Mに関する全ての正例が少なくとも1回出現する無限列 E1, E2, E3, ... H1, H2, H3, ... • 学習アルゴリズム IIMが概念Mを正提示（正データ）から極限において(EX)同定する ÛM(P)の任意の正提示に対して $N" n > NHn= P かつ M(P) = M .

教師正提示からの学習の困難さ(1) 対象とする言語全体正提示（正データ） E1, E2, E3, …, En,… M(P) ・・・ E1, E2, …, En から論理式Hnを構成するアルゴリズム M(Hn) M= M(P) 仮説 H1, H2, H3,…,Hn,… Over generalization

教師正提示からの学習の困難さ(2) 対象とする言語全体正提示（正データ） E1, E2, E3, …, En,… M(P) ・・・ E1, E2, …, En から論理式Hnを構成するアルゴリズム M(Hn) M=M(P) 仮説 H1, H2, H3,…,Hn,… Over fitting

否定的結果 Th. [Gold] 概念空間 C(H)は, 全ての有限集合と無限集合を一つ以上含めば正データから極限同定可能でない． • 論理プログラムの最小モデル全体は正データから極限同定可能でない． • たとえ停止する論理プログラムだけを扱ったとしても • 正則言語全体は正データから極限同定可能でない．

C(H)に次のような（意地の悪い）提示をLMに与えるC(H)に次のような（意地の悪い）提示をLMに与える H1,H2,H3,...,P1,P1, … H1,H2,H3,...,P1,P1, … E1, E1, …, E2,... N1+1回 • C(H)には{E1, E2}が含まれるので， LMは{E1, E2}を極限同定する． E1, E1, …, E2, ... H1,H2,...,P1,…,P2 ,… $N1" n > N2 > N1Hn= P2かつ M(P2) = {E1, E2}

C(H)には{E1, E2 , E3 }が含まれるので， LMは{E1, E2 , E3}を極限同定する． H1, H2,..., P1,..., P2 ,..., P3 ,... E1,E1,... E2,...,E3,... N1+1回 N2+1回 $N3"n >N3 > N2> N1Hn= P3かつ M(P3)={E1, E2 , E3} • M(P0)={E1, E2 , E3 , E4,…}は無限集合であった LMはMを極限同定できない！

原子論理式と正データ学習 • HATOM = { A : Aは原子論理式} Th. [Lassez et al.]C(HATOM)は反単一化を繰り返し用いることにより, 正データから極限同定可能である. 例 p(x, y, s(z)) ¬ ÎHATOM M(p(x, y, s(z)) ¬ ) = {p(0,0,s(0)), p(s(0),0,s(0)), p(s(s(0)),0,s(0)), ... p(0,s(0),s(0)),..., p(0,0,s(s(0))),...}

反単一化(Anti-Unification) • Aの汎化(generalization) : A = LqとなるL • 異なる部分項には，異なる変数 • 一つの部分項には，複数の変数も可 p(x, s(0), s(s(0))) p(x, s(y), s(s(0))) p(x, s(y), s(s(y))) p(x, y, s(z)) • 反単一化 : Aと B の共通の汎化を求める • 最小共通汎化L (lca) : 1. Aと B の共通の汎化であって, 2. Aと B の任意の共通汎化Mに対して Mx =L

反単一化アルゴリズム Algorithm Anti-Unify(E) Eは基礎原子論理式の有限集合 Refine(E, p(x1, x2, …, xn))を返す; Algorithm Refine(E, A) if E Í M({B¬})なる B が r(A)に存在 then そのような B を一つ選び, Refine(E, B)を返す; else Aを返す;

反単一化アルゴリズム(例) áp(0, s(0), s(s(0))), p(s(0), 0, s(0)) ñ áp(0, s(0), s(s(0))), p(s(0), 0, s(0)) ñ áp(X0,s(0), s(0), s(s(0))), p(X0,s(0), 0, s(0)) ñ áp(X0,s(0), Xs(0),0, s(s(0))), p(X0,s(0), Xs(0),0, s(0)) ñ áp(X0,s(0), Xs(0),0, s(s(0))), p(X0,s(0), Xs(0),0, s(0)) ñ áp(X0,s(0), Xs(0),0, s(Xs(0),0)), p(X0,s(0), Xs(0),0, s(Xs(0),0)) ñ p(X, Y, s(Y))

p(X, Y, Z) p(s (X), Y, Z) p(X, Y, s(Z)) p(X, Y, Y) … p(X, Y, s(Y)) p(X, s(Z), s(s(Z))) p(s(0), Y, s(Y)) p(s(0), 0, s(0)) p(0, s(0), s(s(0))) 有限の厚さ(finite thickness) • 一つの基礎原子論理式に対して，それを含むような概念 L(A) は有限個しかない一般的具体的

C4: 有限の厚さ Th. [Angluin]　概念空間 Uが有限の厚さを持てば，Uは正データから極限同定可能である. 有限の厚さ：任意の語 wに対して，wÎ L を満たすU中の Lは有限個である. 注: 概念空間Uが有限の厚さを持ったとしても ÈNU が有限の弾力性を持つとは限らない

⇒ ⇒ ⇒ 正データからの極限同定可能性 L : 形式言語族 • EC1（必要十分）： Lの各言語の有限証拠集合を枚挙する手続きが存在する[Angluin] • C2:L の全ての言語が特徴例集合を持つ [Kobayashi] • C3:L が有限の弾力性を持つ[Wright] • C4:Lが有限の厚さを持つ[Angluin] ⇒ ⇒ ⇒

応用例 • 半構造化文書群からの共通パターン抽出 [Yamamoto et al. 01]

半構造化データ <TABLE> <TR> <TD>a</TD> <TD>b</TD> </TR> <TR> <TD>c </TD> <TD>d</TD> </TR> </TABLE> TABLE(TR(TD(a)TD(b))TR(TD(c)TD(d)))

DOM TABLE(TR(TD(a)TD(b))TR(TD(c)TD(d))) <TABLE> <TR> <TR> <TD> <TD> <TD> <TD> a b c d

反単一化への帰着 • タグの子の数は，タグによって定まっている． • 対象とする表の行数，列数は一定 • 兄弟タグはコンマで分離 TABLE(TR(TD(a), TD(b)), TR(TD(c),TD(d))) • 文字列部分(PCDATAに相当)は記号1個と仮定する． • 文字列の構造までは考慮しない • 共通パターンを表すために変数を用いる．

変数による共通パターン表現 TABLE(TR(TD(a), TD(b)), TR(TD(a), TD(d))) TABLE(TR(TD(e), TD(b)), TR(TD(e), TD(h))) TABLE(TR(TD(X), TD(b)), TR(TD(X), TD(W))) Xa,e Xa,e Xd,h

正データからの極限同定(1) • 単位節プログラム : 有限個の原子論理式からなる論理プログラム P : A1¬ A2¬ … An¬ HUNIT : 単位節プログラム全体 ⇒ C(HUNIT )は正データから極限同定可能でない．

応用例(購買履歴からの学習) 目標(解きたい問題): • 利用者(消費者)の購買履歴(transaction)から利用者の購買傾向を発見する頻繁に出現するパターン例あるインターネット書店　見つけたい購買傾向の例: 　「蹴りたい背中」と「インストール」は同時に購入される可能性が高い

購買傾向の利用例

頻出パターン発見の定式化(1) • プログラムに与えられるデータ(入力) 1. トランザクション・データベース D ：購買履歴(トランザクション)の記録 • 高校数学用語を用いるとトランザクションは「蹴りたい背中」を買う，「インストール」を買う,… 　などを根元事象とする事象 2.支持度(support)0 £s£ 1

購入した本の種類 トランザクション(一回分) トランザクション・データベース

頻出パターン発見の定式化(2) • 求めたい購買傾向(出力) 相対頻度が支持度 sを越える全てのパターンパターン: 属性の集合 {A1, A2, …, An} 相対頻度 P({ A1, A2, …, An }) D中のトランザクションで同時に1であるものの個数 D中のトランザクションの総数

簡単な例 P({A})=0.75, P({B})=P({C})= P({E})=0.5 P({D})=P({F})= 0.25 P({A , B} )=0.25, P({A , C} )=0.5,…

相対頻度の性質 • 一般に属性の集合(連言) S , Tに対して SÍ TÞ P(S) ³P(T) : Pの単調性 P({A})=0.75 ³ P({A , B} )=0.25 P({B})=0.5³ P({A , B} )=0.25 P({A})= 0.75 ³ P({A , C} )=0.5 …

Aprioriアルゴリズム[Agrawal et al 93] • Pの単調性を用いた頻出結合規則発見 1. L1 = {{A} | P({A}) ³ s}とする 2. k =1とする 3. Ck+1 = { SÈT | SÎ Lk , TÎ Lk , | SÈT | = k+1} とする． 4. Lk+1 = {SÎCk+1 | P(S) ³ s}とする 5. Lk+1 = Æならば終了, k =1の値を 1増やして 2へ戻る

Aprioriアルゴリズム(2) Ck+1 ={S1, S2, …, Sn}のパターン(事象) Siに対して P(Si) ³ s であるかどうかの判定方法 1.各Siに対して, 変数niを用意して, 最初はni = 0にしておく. 2.トランザクション・データベース D 中の各トランザクション t について順に Ck+1 の中の各パターンSiに対して順に t が満たしていればni の値を１増やす.

反単一化としての定式化 • トランザクション 1回分を p(a1, a2,…, an) で表す ai = 1 または 0 • 属性集合{Ai}を, p(x1, x2,…,1,…, xn)で表す同様に, 属性集合 S は p(x1,..,1,..,1,..1,.., xn) • トランザクション・データベースRにおいて P(S) ³ s を R |=sp(x1,..,1,..,1,..1,.., xn) と表す

正データからの学習の基本:EC1 Th. [Angluin]Herbrandモデルの集合 Uが正データから極限同定可能であるための必要十分条件は， U中の各 M(P)の有限証拠集合(finite tell-tale)が存在し，論理プログラム P を与えると M(P)の有限証拠集合T(P)の要素を枚挙するアルゴリズムが存在することである. M(P)の有限証拠集合(finite tell-tale) T(P) : T(P) ÍM(P)かつ他のどのようなU中の(P’)に対しても T(P) Í M(P’)ÌM(P)とはならない．

枚挙と生成テストによる極限同定 • 仮説空間 H 内の論理プログラムの枚挙を固定 P1, P2,…, Pn,… for n = 1 forever En = á An , +ñ を受取る k = 1, H = P1 while ( k£n ) if ( 0 £ $j £nAjÏM(H) または T(H) Í {A1 , A2,…, An }) k ++; H = Pk output Hn = H

× T F L L 有限証拠集合と特徴例集合言語Lの有限証拠集合T : • T ⊆L (T は有限集合) • 全てのL’∈Lに対して T⊆L’⊂Lは成り立たない Lの特徴例集合F : • F ⊆L (F は有限集合) • 全てのL’∈Lに対して F ⊆L’⇒L⊆L’

C2: 特徴例集合の存在 Th. [S.Kobayashi]　概念空間 U中の各概念 L(h)に特徴例集合(characteristic set)が存在すれば，概念空間 Uが正データだけから極限同定可能である. 概念 L(h)の特徴例集合(characteristic set)C : Cは有限集合， CÍL(h) かつどのようなU中の概念L(h’)に対しても CÍL(h’) ならば， L(h) ÍL(h’) ．注EC1ÜC2ÜC3ÜC4

原子論理式に対する推論規則 • 原子論理式に対する推論規則 A A A[X := f (X1,…,Xn)] A[X:=Y] • n³0 • X,Y はAに出現する変数 • X1,…,XnはAには出現しない相異なる変数 • 述語記号 p の任意の原子論理式(の変種, variant)は上の二つの規則によって, p(X1,…,Xn ) から導出可能

C3: 有限の弾力性 Th. [Wright]　概念空間 Uが有限の弾力性を持てば，Uは正データから極限同定可能である. 無限の弾力性：語の無限列 w0, w1, w2, …,と Uに属する言語の無限列 L(h0), L(h1), L(h2) …, が存在して， n³1以上のすべてのnについて {w0, w1, ..., wn-1 } Í L(hn)かつwnÏL(hn) 有限の弾力性：無限の弾力性が成立たない. cf. Noether環のascending chain condition

知能情報システム特論 正データからの極限同定 (1)