240 likes | 313 Views
11 月 24 日 インターネット検索の応用. ロボット型検索エンジンの使い方 goo Google ロボット型検索エンジンの仕組み スパイダ インデクサ ランキングアルゴリズム 全文検索エンジン Namazu. ロボット型検索エンジンの使い方. 目的のページの作成者はどんな単語を使うかを想像する 検索エンジンの表示順位を想像する 見つからなかったら同義語で検索する AND OR NOT 検索をする コアラ AND 動物 コアラ OR koala コアラ – ネット -ADSL. 一度検索して見つからなかったら. 同義語で検索する
E N D
11月24日インターネット検索の応用 • ロボット型検索エンジンの使い方 • goo • Google • ロボット型検索エンジンの仕組み • スパイダ • インデクサ • ランキングアルゴリズム • 全文検索エンジン Namazu
ロボット型検索エンジンの使い方 • 目的のページの作成者はどんな単語を使うかを想像する • 検索エンジンの表示順位を想像する • 見つからなかったら同義語で検索する • AND OR NOT検索をする • コアラ AND 動物 • コアラ OR koala • コアラ –ネット -ADSL
一度検索して見つからなかったら • 同義語で検索する • シソーラス検索 • http://www.gengokk.co.jp/thesaurus/ • 用語辞典 • http://e-words.jp/IT用語辞典 • 検索されたページを読んで使えそうな専門用語を見つけ,その専門用語で検索する
gooで検索してみようhttp://www.goo.ne.jp • 画像,カテゴリー,タウンページ,ケータイ • 検索オプションを使う • いろいろな検索オプションを使う • http://search.goo.ne.jp/advanced.jsp • 教えて!goo • みんなの疑問、みんなで解決! • ブログの検索 • キャッシュページを見てみる • Webサーバーが一時的に利用できない場合や頻繁に書き換えを行っているWebページを見るときに便利
Googleで検索してみようhttp://www.google.co.jp • I’m Feeling Luckyを使う • 会社のホームページを見る • 検索オプションを使う • いろいろな検索オプションを使う • 関連ページを検索する • 検索結果の関連ページリンク • キャッシュページを見てみる • Webサーバーが一時的に利用できない場合や頻繁に書き換えを行っているWebページを見るときに便利 • 分野を絞って検索する • その他 • 荷物検索,会社情報検索,株価検索,辞書検索,路線検索
ロボット型検索エンジンの仕組み • スパイダ(ロボット)と呼ばれる自動プログラムを使ってWebサイトのページをダウンロードする • インデクサと呼ばれる自動プログラムでページの可視部分を抽出し,キーワード,タイトル,リンク,などの重要な情報を用いてページ解析する. • データベースにWebサイトの解析結果を追加し,ユーザが検索可能な状態にする.ランキングアルゴリズムにより,検索結果の順位が決定される
スパイダ • ウェブ上のリンクをたどって情報を収集すること • ウェブ(蜘蛛の巣)のリンク(糸)をたどって目的の情報(獲物)を捕らえる → スパイダ(蜘蛛)
インデクサ • 検索したいコンテンツをあらかじめ検索しやすい形のファイルに変換するプログラム • 各コンテンツを形態素解析技術を用いて単語を分解し,それらの単語をインデックスファイルに記録する
形態素解析 (インデクサ) • 形態素 = 意味を担う最小の言語要素 • 形態素解析 • 単語の出現形から原形を求める処理(英語など) • solving → solve + ing (進行形) • easier → easy + er (比較級) • problems → problem + s (複数) • 単語分割と語の活用(日本語など) • 日本的 → 日本 + 的 • 言語モデル → 言語 + モデル • 使い込む → 使う + 込む
形態素解析の手法 (インデクサ) • 最長一致法 • 分割数最小法 • 例:畜産物価格安定法 • 畜産物|価格|安定|法
最長一致法 (インデクサ) • 文字列の先頭から解析を始め,後続する可能性がある単語が複数あるときは,最長の単語を選択して先に進む • ○ (8) 畜産物|価格|安定|法 • ×(4) 畜産 価 安
分割数最小法 (インデクサ) • 入力文字列を構成する単語の総数が最小になる解釈を優先する方法 • 例:言語学入門講座 • ○ (3) 言語学|入門|講座 • ×(4) 言語|学|入門|講座 • ×(4) 言語学|入|門|講座
ランキングアルゴリズムGoogleの中身(ちょっとだけ)ランキングアルゴリズムGoogleの中身(ちょっとだけ) • Googleの検索結果の順位付け • 如何にすれば自分の作ったページを高順位に表示させられるか. • Googleは何を基準に検索結果を順位付けしているのか • PageRankとその他のランキングアルゴリズム
キーワード(検索語)の埋め込み方(Googleに好かれるには)キーワード(検索語)の埋め込み方(Googleに好かれるには) • キーワード : w が入力された時,検索結果の上位に表示されるためには • キーワード w を • Webページのタイトル内に使う • イメージファイル名,ALT属性,title属性に使う • 大きな字で表示する • トップページからのリンクで使用する • 別のサイトや内部サイトへのリンクテキストで使用する • メジャーなサイトへのリンクで使用する • などなど
キーワード(検索語)の埋め込み方(Googleに好かれるには) 続きキーワード(検索語)の埋め込み方(Googleに好かれるには) 続き • last modified(最終更新日)ヘッダを使う • HTMLの構文誤りのないWebページを作る • 1つのファイルのサイズを大きくしない(20kバイト以下) • HTMLファイル中のテキストの比率を高くする • などなど
PageRank • 学術論文の重要度 • 他の研究論文から何度引用されているかによって評価できる • Webページの重要度 • 他のWebページからのハイパーリンクの数で評価できる
PageRankの式 WebページAのPageRankはWebページAにリンクしている 各ページのPageRankを,それぞれのページからの外向き リンク数で割った値の総和
PageRankの図1 ハイパーリンク ハイパーリンク B A ページBの方がページAよりも重要なページ
PageRankの図2 ハイパーリンク たくさんの 外部リンクを 持つページ ハイパーリンク B A ページBの方がページAよりも重要なページ
個人で手軽に使える検索システムNamazu • URL: http://www.namazu.org • 自分の管理しているWebサイト内の検索 • 例:http://ir.cs.yamanashi.ac.jp/~ysuzuki
最後にインターネット検索での注意 • Webに書いてあることを鵜呑みにしない • 検索結果をいくつか読んでみる • できれば他のメディアでも確認する • いろいろな検索サイトで検索を試してみる • 検索サイトの「使い方」のページをよく読む • 検索方法が頻繁に改良されているので,たまには読み直す
授業資料 http://ir.cs.yamanashi.ac.jp/~ysuzuki/man-machine.html 参考にした文献 • インターネット 最強の検索術 関裕司著 リブロス刊 • 検索の鉄人/関裕司 • http://www.shikencho.com/ • GOOGLE HACKS オライリー・ジャパン • SPIDERING HACKS オライリー・ジャパン
レポート • ロボット型の検索エンジン(Google,gooなど)を使って検索してください. • 検索して調べたいことを明確に書く • 利用したキーワード,検索オプションを書く • 目的のページのURLとその表示順位を書く • 授業の前と後でインターネット検索についての考え方に変化はありましたか.あればどのように変化したか書いてください.なければ検索の方法について書いてください. • 授業の感想を書いてください(悪く書いても減点はしません)
レポート(提出期限,提出方法) • 提出期限 12月01日17:00 • 提出方法 • Email • ysuzuki@yamanashi.ac.jp宛て • Subjectは人間とコンピュータ レポート • レポート用紙 • A3号館5階K514号室の前のレポート入れ