180 likes | 253 Views
電子書籍の検索機能の改善. 木下研究室 201002713 鴫原 善寿. 背景. スマートフォンなどの携帯端末の普及とともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、持ち運びも容易になるなど様々な恩恵を もたらした 。. 背景. 電子書籍の便利になった機能として検索機能がある。電子書籍ならば索引を参照する手間がなく、複数のページを検索することが可能になった。. 夏目漱石 「 こころ 」. 「 私 」というキーワードで検索 検索結果 キーワードを含む文とページ
E N D
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿
背景 • スマートフォンなどの携帯端末の普及とともに電子書籍に注目が浴びた。中でもamazonのkindleなど電子書籍の専用端末も現れた。 • 電子書籍はデータなので本棚もいらず、持ち運びも容易になるなど様々な恩恵をもたらした。
背景 • 電子書籍の便利になった機能として検索機能がある。電子書籍ならば索引を参照する手間がなく、複数のページを検索することが可能になった。
夏目漱石 「こころ」 「私」というキーワードで検索 検索結果 キーワードを含む文とページ がリスト表示される。
「私」と「先生」という二語のキーワードで検索「私」と「先生」という二語のキーワードで検索 検索結果 「一致する検索結果がありません。」と表示。 実際には「私」と「先生」という二語のキーワードを含む文がある。 私が先生と知り合いになったのは鎌倉である。 . . . . 改善
テキスト 自動要約 要約率 重要文 二語で検索をするということは、一語目と二語目は何らかの関係があり、その二語が全く関連性のない語とは考えにくい。 書籍は基本的に一つの題目,テーマに沿って書かれているものであるため,書籍において出でくるワードは一つの題目,テーマに関係のある言葉であるものと考えられる.
一語から二語目を抽出 適当な二語の検索 電子書籍のユーザーにとって便利な検索機能 私 私 友人 先生 関係のある言葉を選んでから検索。 ユーザーの欲しい情報が得られる
目的 • ユーザーが二語選ぶのではなく、システムが二語目を選ぶことで、ユーザーが欲しい情報を効率よく得る検索システムの提案。
インターネット上の情報 集合結果 (ランキング処理後) 索引全体 集合結果 収集 ランキング上位 キーワード検索 電子書籍は 不変のデータ (有限) ランキング上位は 変わらない キーワードに適合したものを取り出す より正解となるものを取り出す Web検索では検索元のデータが日々新しくなるランキング上位が変わる (検索対象が無限) ネット上のページ キーワードを含むページ
第2キーワードの決め方 電子書籍のデータ 集合結果 (ランキング処理後) 集合結果 索引全体 5 7 7 収集 6 5 6 6 6 第2キーワード決定 第2キーワード抽出 3 4 3 4 あらかじめいくつのキーワードを抽出するか決めておく。 数値の大きさで決める 単語の共起頻度を数値化し、数値の大小で 第2キーワードを決める。 書籍内の単語 キーワードを含む書籍内の単語
提案 • 第1キーワードから最も関係のある単語を第2キーワードとし抽出を行う。 • 第2キーワードの抽出方法としてtf-idf法の応用であるOkapi-BM25を使用する。またtf-idf法とOkapi-BM25の2つの検索をし、検索結果の表を比べることで、どちらが優れているかを示す。
検索方法 • 第1キーワードで検索をする。 • 第1キーワードを含む文を抜き出す。 • 2.で取り出した文から単語をとりだし第2キーワード候補群の配列に格納する。 • 第2キーワード候補群の配列から第2キーワードを決める。 • 第2キーワードで検索をする。
「私」というキーワードで検索 私 先生 わたくし その人 常 …. 出掛ける 事 「先生」を第2キーワードとし、検索をかける。
tf – idf法による抽出(方式A) ある単語の文書内での出現頻度をtf(termfrequency) ある単語が含まれている文書の頻度をdf(document frequency) 全文書数N idf(inverse document frequency)は,dfの逆数であり,dfとの対数をとったものとする
Okapi-BM25 (方式B) 文書の長さ(文書数)の平均化をはかり、スコアリングする文書が大体どれくらいの長さなのかを比率的に計算することで特徴語のスコアのムラを小さくしている。
結果 tf-idf法では「先生」「西洋人」「鎌倉」の順に数値が大きい Okapi-BM25では「先生」「鎌倉」「西洋人」の順となった。 文の文字数を考慮した結果、数値の差が縮まり、 ランキング上位が入れ変わった。
考察 • そのほかの書籍ジャンル(参考書など)で同様に検索を行う。書籍ジャンルごとの結果を比較することでtf-idf法とOkapi-BM25はジャンルごとでどちらを使う方が良いかを考察する。