slide1
Download
Skip this Video
Download Presentation
電子書籍の検索機能の改善

Loading in 2 Seconds...

play fullscreen
1 / 18

電子書籍の検索機能の改善 - PowerPoint PPT Presentation


  • 59 Views
  • Uploaded on

電子書籍の検索機能の改善. 木下研究室  201002713  鴫原 善寿. 背景. スマートフォンなどの携帯端末の普及とともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、持ち運びも容易になるなど様々な恩恵を もたらした 。. 背景. 電子書籍の便利になった機能として検索機能がある。電子書籍ならば索引を参照する手間がなく、複数のページを検索することが可能になった。. 夏目漱石 「 こころ 」. 「 私 」というキーワードで検索 検索結果 キーワードを含む文とページ

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' 電子書籍の検索機能の改善' - verity


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

電子書籍の検索機能の改善

木下研究室 

201002713 鴫原 善寿

slide2
背景
  • スマートフォンなどの携帯端末の普及とともに電子書籍に注目が浴びた。中でもamazonのkindleなど電子書籍の専用端末も現れた。
  • 電子書籍はデータなので本棚もいらず、持ち運びも容易になるなど様々な恩恵をもたらした。
slide3
背景
  • 電子書籍の便利になった機能として検索機能がある。電子書籍ならば索引を参照する手間がなく、複数のページを検索することが可能になった。
slide4

夏目漱石 「こころ」

「私」というキーワードで検索

検索結果

キーワードを含む文とページ

がリスト表示される。

slide5

「私」と「先生」という二語のキーワードで検索「私」と「先生」という二語のキーワードで検索

検索結果

「一致する検索結果がありません。」と表示。

実際には「私」と「先生」という二語のキーワードを含む文がある。

私が先生と知り合いになったのは鎌倉である。

.

.

.

.

改善

slide6

テキスト

自動要約

要約率

重要文

二語で検索をするということは、一語目と二語目は何らかの関係があり、その二語が全く関連性のない語とは考えにくい。

書籍は基本的に一つの題目,テーマに沿って書かれているものであるため,書籍において出でくるワードは一つの題目,テーマに関係のある言葉であるものと考えられる.

slide7

一語から二語目を抽出

適当な二語の検索

電子書籍のユーザーにとって便利な検索機能 

友人

先生

関係のある言葉を選んでから検索。

ユーザーの欲しい情報が得られる

slide8
目的
  • ユーザーが二語選ぶのではなく、システムが二語目を選ぶことで、ユーザーが欲しい情報を効率よく得る検索システムの提案。
slide9

インターネット上の情報

   集合結果

(ランキング処理後)

索引全体

集合結果

収集

ランキング上位

キーワード検索

電子書籍は

不変のデータ

(有限)

ランキング上位は

変わらない

キーワードに適合したものを取り出す

より正解となるものを取り出す

Web検索では検索元のデータが日々新しくなるランキング上位が変わる

(検索対象が無限)

ネット上のページ     キーワードを含むページ

slide10

第2キーワードの決め方

電子書籍のデータ

   集合結果

(ランキング処理後)

集合結果

索引全体

5

7

7

収集

6

5

6

6

6

第2キーワード決定

第2キーワード抽出

3

4

3

4

あらかじめいくつのキーワードを抽出するか決めておく。

数値の大きさで決める

単語の共起頻度を数値化し、数値の大小で

第2キーワードを決める。

書籍内の単語     キーワードを含む書籍内の単語

slide11
提案
  • 第1キーワードから最も関係のある単語を第2キーワードとし抽出を行う。
  • 第2キーワードの抽出方法としてtf-idf法の応用であるOkapi-BM25を使用する。またtf-idf法とOkapi-BM25の2つの検索をし、検索結果の表を比べることで、どちらが優れているかを示す。
slide12
検索方法
  • 第1キーワードで検索をする。
  • 第1キーワードを含む文を抜き出す。
  • 2.で取り出した文から単語をとりだし第2キーワード候補群の配列に格納する。
  • 第2キーワード候補群の配列から第2キーワードを決める。
  • 第2キーワードで検索をする。
slide13

「私」というキーワードで検索

私 先生 わたくし 

その人 常

…. 出掛ける 事

「先生」を第2キーワードとし、検索をかける。

tf idf a
tf – idf法による抽出(方式A)

ある単語の文書内での出現頻度をtf(termfrequency)

ある単語が含まれている文書の頻度をdf(document frequency)

全文書数N

idf(inverse document frequency)は,dfの逆数であり,dfとの対数をとったものとする

okapi bm25 b
Okapi-BM25 (方式B)

文書の長さ(文書数)の平均化をはかり、スコアリングする文書が大体どれくらいの長さなのかを比率的に計算することで特徴語のスコアのムラを小さくしている。

slide16
結果

tf-idf法では「先生」「西洋人」「鎌倉」の順に数値が大きい

Okapi-BM25では「先生」「鎌倉」「西洋人」の順となった。

文の文字数を考慮した結果、数値の差が縮まり、

ランキング上位が入れ変わった。

slide17
考察
  • そのほかの書籍ジャンル(参考書など)で同様に検索を行う。書籍ジャンルごとの結果を比較することでtf-idf法とOkapi-BM25はジャンルごとでどちらを使う方が良いかを考察する。
ad