460 likes | 589 Views
表形式仕様書からの ソフトウェア情報の自動抽出について. 土田 賢省 (東洋大学工学部) 塩野 康徳 (東洋大学大学院 M1 ) 平成 16 年 12 月 4 日 第 124 回 WAAP (於:日本大学文理学部). 本日の発表内容. 1 背景 2 目標 3 関連研究 4 KEYAKI の既存研究 5 まとめ 「既存システムのデモ」 (by 塩野). 1. 背景. 1. 1 電子文書化の加速 e- ビジネスの展開・発展 「 e 文書法」 XBRL ebXML 電子帳票のツールや支援システム開発・商用化
E N D
表形式仕様書からのソフトウェア情報の自動抽出について表形式仕様書からのソフトウェア情報の自動抽出について 土田 賢省 (東洋大学工学部) 塩野 康徳 (東洋大学大学院M1) 平成16年12月4日 第124回 WAAP (於:日本大学文理学部)
本日の発表内容 1 背景 2 目標 3 関連研究 4 KEYAKIの既存研究 5 まとめ 「既存システムのデモ」(by 塩野)
1. 背景 1. 1 電子文書化の加速 • e-ビジネスの展開・発展 • 「e文書法」 • XBRL • ebXML • 電子帳票のツールや支援システム開発・商用化 1. 2 ソフトウェア仕様書、 XML
「e文書法」 • 【電子文書法】デンシブンショホウ • 別名 : 民間事業者等が行う書面の保存等における情報通信の技術の利用に関する法律 • 2004年11月に制定。施行は2005年4月。 • 帳票類や財務諸表、取締役会の議事録など、商法や税法などで企業に保存が義務付けられている文書について、電子化された文書ファイルでの保存を認める。 • 紙の文書をスキャナで読み取った画像データも一定の要件を満たせば原本として認められる。
「e文書法」(続き) • e-文書法が実施されることにより、税務関係書類の50%から90%近くを電子保存できると試算されており、保有コストの大幅な軽減が見込まれる。 • 税務研究会が発行する「週間税務通信(No.2827)」に掲載された企業からのヒアリングによる負担軽減効果の試算によると、以下のように95%以上の保存書類の軽減が見込まれている。 ・金融サービス会社:37万箱中36万箱が電子保存可能(保存量97%減) ・メーカー:5.9万箱中5.6万箱電子保存可能(保存量95%減) ・流通会社:75.4万箱中75.3万箱が電子保存可能(保存量99%減) (http://nikkeibp.jp/wcs/leaf/CID/onair/smbit/infra/344691 より抜粋)
XBRL • 財務情報・事業報告等を記述するためのXMLベースの言語 • 海外で資金調達する金融機関は、2007年からXBRLによる報告が義務付けられる(バーゼル銀行監督委員会での合意による。BIS規定) • XBRL Japanが2001年4月発足し、 2004年2月末時点で73社が加盟。 • XⅡ:XBRLの策定、普及活動団体 (http://www.wbrl.org)
ebXML(Electronic Business XML) • 全世界的なBtoB電子商取引の取り引きを可能とするために、XMLのスキーマ、ボキャブラリ、通信方法、取り引き情報記述法などの、世界唯一の標準を提供することを目的とした団体。UN/CEFACTと、OASISが中心となってebXMLを推進しており、1999年11月に設立された。 (http://www.atmarkit.co.jp/aig/01xml/ebxml.html より抜粋) (注) 同団体によって規定される技術標準も指す。
電子帳票のツールや支援システム開発・商用化電子帳票のツールや支援システム開発・商用化 • 下記の展示会より2例 第13回 ソフトウエア開発環境展 SODEC (ソデック)13th Software Development Expo & Conference in Tokyo 2004年7月7日(水) ~ 2004年7月9日(金) 10:00~17:00 東京ビッグサイト 118社
NeoCore XML Management System(XMS) 三井物産株式会社 システム構成図
NeoCore XML Management System(XMS)(続き) 活用例1 Webコンテンツ管理
NeoCore XML Management System(XMS)(続き) 活用例2 帳票管理
XRFseries(XRF Designer, XRF Composer, XRF Reader)、JointBase 株式会社プリズム 全体構成図
1. 2 ソフトウェア仕様書、 XML • 表形式のソフトウェア仕様書 • 作成・参照・管理・教育などの使用目的に適している • 様々の分野のソフトウェア仕様書に表形式が採用 例.組み込みソフトのEXCEl形式の仕様書(日立) • XMLの普及 • XMLとドキュメント標準化 • XMLとデータベース • Oracle,Microsoft SQL Server,Xindice,・・・
1. 2 ソフトウェア仕様書、 XML(続き) • XMLのソフトウェア仕様書への利用における問題点 • 仕様書のチェック、情報抽出・格納は人為的作業に依存 ヒューマンエラーの内包、膨大な工数 • 仕様書作成の支援機能が不十分 • XMLをそのまま利用した単純な検索のみ • ドキュメント内容に図・表があまり扱われていない
2. 研究の目標 ◎表形式仕様書を入力とし、グラフ文法による統一的な定式化に基づき、構文解析ならびにソフトウェア情報の抽出を行い、さらに抽出したデータをWEBデータベースに登録する一連のプロセス全体の自動化を目指す。 • 手書き書面も含めた紙ベースの大量の表形式仕様書の光学的な手段による入力も考慮 • WEBデータベースはソフトウェア開発支援向けの検索・管理機能を具備
2. 研究の目標(続き) 入力:表形式仕様書 表形式仕様書画像認識 属性グラフ文法1 (表画像認識) マーク付きグラフ 構文解析 導出木 属性グラフ文法2 (表の構造解析, ソフトウェア情報抽出) 属性評価 XMLファイル DB用データ生成・登録 WEB データベース 情報検索・管理(ソフトウェア開発支援用) システム全体構成図-1型
2. 研究の目標(続き) 入力:表形式仕様書 商用OCR・表解析ソフト マーク付きグラフ 構文解析 導出木 属性グラフ文法 (表の構造解析, ソフトウェア情報抽出) 属性評価 XMLファイル DB用データ生成・登録 WEB データベース 情報検索・管理(ソフトウェア開発支援用) システム全体構成図-2型
3. 関連研究 • 表の構造認識 • 渡邉 他,“帳票文書の構造認識のための書式構造知識の自動獲得”,信学論(D-Ⅱ),J76-D-Ⅱ,3,534-545, 1993年3月 • 天野 他,”Graph Grammar Based Analysis System of Complex Table Form Document”, Proc. 7th ICDR, 916-920, 2003年 • 會澤,中村 他,” Parsing of two-dimensional images represented by quadtree adjoining grammars”, Pattern Recognition 32(2), 277-294, 1999年
3. 関連研究(続き) • XMLのソフトウェア情報DB化への利用 • “プログラム解析情報のXMLデータベース化”,(山中,大畑,井上(大阪大学),コンピュータ ソフトウェア, Vol. 19, No.1, 39-43, 2002年)
4. KEYAKIの既存研究 [全国大会] [1] 有田,冨山,夜久,宮寺,杉田,土田, “NCEグラフ文法による図表の構文的処理”, 電子情報通信学会情報・システムソサイエティ大会講演, D3-3, 2000年 [2] 仲川,有田,冨山,夜久,宮寺,土田,“A Syntax Directed Environment for Tabular Form Processing”,電子情報通信学会総合大会, 立命館大学,D-3-7,2001年3月28日 [3] 井上,有田,夜久,土田,“属性edNCEグラフ文法による表のXML表現”,電子情報通信学会総合大会, 立命館大学,D-3-8,2001年3月28日 [4] 坂井,山口,杉田,夜久,土田,“ソフトウェア仕様書のXMLによるデータベース化”,電子情報通信学会総合大会, 東北大学, D-3-4, 2003年3月
4. KEYAKIの既存研究(続き) [研究会] [1] 有田,冨山, “An Arribute Precedence Graph Grammar and Tabular Forms”,「計算機科学の基礎理論:21世紀の計算パラダイムを目指して」研究集会,数理解析研究所講究1148 (no. 5), 23-28, 2000年 4月 [2] 冨山,有田,夜久,土田,“属性edNCEグラフ文法による表の構文的編集”,信学技法Vol.100 No.471, (SS2000-23),1-7, 2000年11月20日 [3] 井上,仲川,有田,夜久,土田,“形式的文書操作のための表形式用XMLビューア”,ソフトウェアサイエンス研究会 信学技法,SS2001-43, 31-38, 2002年1月 [4] T. Arita, S. Nakagawa, K. Tsuchida, and T.yaku, “FXL : A Form Exchange Language fo Modular Form for Program Specification Documents”,第5回プログラミングおよび応用のシステムに関するワークショップSPA ’02 , 2002年3月
4. KEYAKIの既存研究(続き) [国際会議] [1] T. Arita, K. Tomiyama, T. Yaku, Y. Miyadera, K. Sugita and K. Tsuchida, “Syntactic processing of diagrams by graph grammars”, Proc. 16th IFIP World Computer Congress Internat. Conf. Software (ICS2000), 145 - 151, 2000. [2] T. Arita, K. Sugita, K. Tsuchida and T. Yaku, Syntactic Tabular Processing by PrecedenceAttribute Graph Grammars, Proc. of the IASTED Inter. Conf. APPLIED INFORMATICS, Innsbruck Austria, 637-642, 2001. 2 [3] T. Arita, Y. Miyadera, S. Nakagawa, K. Tomiyama, K. Tsuchida and T. Yaku, “Syntax directed environmont for tabular form design”, IEEE CS-ACM Internat. Conf. Software Engin. 2001 (ICSE2001), Poster Session, Tronto, Canada, 2001 [4] O. Inoue, K. Tsuchida, S. Nakagawa, T. Arita and T. Yaku, “An XML Viewer for Tabular Forms for Use with Mechanical Documentation”, presented at IASTED Inter. Conf. APPLIED INFORMATICS, 2002. 2 (Proc. of IASTED Inter. Conf. APPLIED INFORMATICS, 1284-1289, 2003. 2)
4. KEYAKIの既存研究(続き) [論文誌] [1] T. Arita, K. Tomiyama, K. Tsuchida and T. YAKU, “Application of Attribute NCE Graph Grammars to Syntactic Editing of Tabular Forms”, Electronic Notes in Theoretical Computer Science, Vol. 50, No. 3, 7 P (Proc. GT-VMT01, pp.284 – 290), Elsevier Science, 2001. 7
4. KEYAKIの既存研究(続き) [卒論/修士論文](日本大学文理学部情報システム解析学科夜久研) [1] 有田友和,“An edNCE graph grammar for modular tabular forms”, H11年度 修士論文 [2] 泉 博貴,「グラフ文法による構文的プログラム仕様書処理系の実現」, H12年度 卒業論文 [3] 冨山聖宣,”Syntactic editing of modular tabular forms”, H12年度 修士論文 [4] 仲川俊一,“File Structures for Modular Form Processing Systems”, H13年度 修士論文
4. KEYAKIの既存研究(続き) [卒論/修士論文](東洋大学工学部情報工学科土田研) [1] 井上 理,「属性edNCEグラフ文法による表のXML表現表示」, H13年度 修士論文,(東洋大学校友会学生研究奨励賞受賞) [2] 新見卓也,「XMLによるプログラム仕様書のデータベース」, H14年度 卒業論文 [3] 坂井美紀,「ソフトウェア仕様書のXMLによるデータベース化」, H15年度 修士論文 [4] 片山由紀,「XML に基づくHiform 入力システムの開発」, H15 卒業論文,(東洋大学校友会学生研究奨励賞受賞) [5] 磯脇 綾,「XMLに基づく仕様書DB問い合わせシステムの開発」, H15年度 卒業論文
入力:表形式仕様書 [塩野?] 表形式仕様書画像認識 マーク付きグラフ [有田] 属性グラフ文法 (表のレイアウト情報, XMLソース生成) 構文解析 導出木 [井上] 属性評価 XMLファイル [新見] XSLT変換 XMLファイル [片山] 対話型Hiformエディタ [坂井] DB用データ生成・登録 仕様書DB 問い合わせシステム データベース (MySQL) [磯脇] 4. KEYAKIの既存研究(続き) 本研究と既存研究(人) との関係
4. KEYAKIの既存研究(続き) • XMLに基づくHiform仕様書データベースシステム (H15年度、坂井、片山、磯脇) • 仕様書作成の支援機能を備えた入力 • データを自動的に既存のRDBに格納 • ソフトウェア仕様書特有の問い合わせ • 対象は図を含むドキュメント
Hiform仕様書データベースシステム(続き) • Hiformの例(A1.プログラム概要書)
Hiform仕様書データベースシステム(続き) Hiform 入力システム XML _______ _____________ <?xml…..> 変換システム (XML→MySQLテーブル) MySQL 仕様書DB 問い合わせシステム システム全体の構成図
Hiform仕様書データベースシステム(続き) [入力] • Hiform仕様書 • 表の枠組み中にテキスト・図の記述が可能 [出力] • XMLファイル • MySQLテーブル
Hiform仕様書データベースシステム(続き) • Hiform入力システム • 変換システム • 仕様書DB問い合わせシステム
Hiform入力システム • 対話的に仕様書の必要項目を入力 → 仕様書の構文に適合するかチェック • Hiformに対応するXMLファイルを生成 • スタイルシートは定義されている • 開発言語: Java
Hiform入力システム(続き) 新規・修正選択画面
Hiform入力システム(続き) Hiform様式選択画面
Hiform入力システム(続き) 入力画面
Hiform入力システム(続き) 生成されたXMLファイルのソース
Hiform入力システム(続き) 生成された仕様書
Hiform入力システム(続き) SVGファイルのソース
変換システム • DB用データの生成: XMLファイルから自動的にDB用データを生成 • 表示: 汎用のWebブラウザ(IEなど)が利用可 • 開発言語: PHP • 開発ツール: PXBASE*(PHP用ライブラリ) * PXBASE • フリーソフト ― 作者:田中 秀哉http://www18.tok2.com/home/koumori27/xml/
変換システム(続き) XMLファイル選択画面
変換システム(続き) XMLファイルに対応するMySQLテーブル
仕様書DB問い合わせシステム • データベース: MySQL • オープンソースデータベース • SQL関数の利用が可能 • 仕様書特有の問い合わせ機能 • 更新履歴 • 表示: 汎用のWebブラウザ(IEなど) • 開発言語: PHP
仕様書DB問い合わせシステム(続き) MySQLにおける問い合わせ結果表示
仕様書DB問い合わせシステム(続き) 更新履歴の結果表示
仕様書DB問い合わせシステム(続き) あるプロジェクトの変更履歴