120 likes | 268 Views
テクスト意味空間分析法最終発表 Ktaifoto のテクスト分析. 環境情報学部 1 年 海野 紗瑶 政策メディア研究科 1 年 清水 愛子. 文章だけではない、 マルチメディアのテクストの意味世界を探る. 1. 研究背景・目的. Ktaifoto.net ・カメラ付きケータイと weblog を用いた新しい コミュニケーションツール ・「写真」「タイトル」「コメント」から成る. 2. 分析方法-予備分析. Ktaifoto 2004/04/20~2004/07/28(1503 件 )
E N D
テクスト意味空間分析法最終発表Ktaifotoのテクスト分析テクスト意味空間分析法最終発表Ktaifotoのテクスト分析 環境情報学部1年 海野 紗瑶 政策メディア研究科1年 清水 愛子
文章だけではない、 マルチメディアのテクストの意味世界を探る文章だけではない、 マルチメディアのテクストの意味世界を探る 1. 研究背景・目的 • Ktaifoto.net ・カメラ付きケータイとweblogを用いた新しい コミュニケーションツール ・「写真」「タイトル」「コメント」から成る
2. 分析方法-予備分析 Ktaifoto 2004/04/20~2004/07/28(1503件) タイトル-9,451字 コメント-1,5635字 総計25,086字(スペースなし) Ketaifotoのデータ(タイトル、コメント別)をテクスト意味分析システムにかけても 結果がでない! →文章として成立していないため ex)名詞の羅列 タイトルとコメントで一文になっている 記号(・・・/?/!)、顔文字の使用
2. 分析方法-データクリーニング • タイトルとコメントをひとつの文章にまとめる • 送り主の意図を壊さない程度に、漢字変換、 文法の修正を行う ex.1) タイトル:「ひさびさに」 コメント:「お花なんてものをいただきました」 →「久々にお花なんてものをいただきました」 ex.2) タイトル:「80℃バーガー」 コメント:「江ノ島のちかく。なかなかお気に入り」 →江ノ島の近くの80℃バーガーはなかなか お気に入りです。
・風景 屋外(428件) 屋内(120件) ・人(308件) ・その他(121件) ・モノ 食べ物(275件) 雑貨(129件) 看板(71件) 動物(47件) (写真なしデータ:16件) 2. 分析方法-分析カテゴリーの設定 • 写真の種類別 →写真の内容と、送り主の「伝えたいこと」に 着目し、以下の8カテゴリーを設定 • 投稿者別 →投稿数の多いAico,Asano,Bell,Choを選定
・人に関する名詞 人 ・場所に関する名詞 場所 店名 イベント 天気 ・時間に関する名詞 時間 ・物体に関する名詞 「食べ物」 「動物」 「モノ」 ・その他 「その他名詞」 「代名詞」 「数字」 「記号」 「感情」 2. 分析方法-出現語頻度表 • 各分析カテゴリーごとに出現語頻度表を出す • 名詞を更に分類することで、傾向を見る
3. 結果-投稿者別の傾向 • Aico/Bell 「人」が中心 • Asano 「食べ物」が中心 • Cho 「風景(屋外)」が中心 ★名詞も同様の傾向
3. 結果-写真カテゴリの傾向① • 「食べ物」「動物」「雑貨」 ・名詞-食べ物/動物/モノ/その他 ・形容詞-「評価」「感想」に関わる形容詞 ★それに対する評価・感想を伝えることが目的
3. 結果-写真カテゴリの傾向② 「~中」が多い • 「人」「屋外」 ・名詞-人/場所/店名/モノ/時間/その他 ・形容詞-「評価」「感想」に関わる形容詞 ・動詞-「いる」「する」「来る」「見える」 ★行動の流れの一部分におけるその時の状況、 感情を伝えることが目的
3. 結果-写真カテゴリの傾向③ • 「屋内」「看板」 ・名詞-場所/時間/人/店名/食べ物/その他 ・形容詞-「評価」「感想」に関わる形容詞 ・動詞-「いる」「ある」「来る」 ★自分が訪れた場所と、そこに存在するものを 伝えることが目的
ktaifoto というマルチメディアコミュニケーションにおいて、投稿者が経験した事実(行為)を 写真で撮影し、テクストを説明的に付け加える際に、共通の作法のようなものが存在する 4. 考察 • 写真カテゴリー別 各写真カテゴリーにおいて、使われる名詞の傾向が異なる • 投稿者別 各投稿者カテゴリーにおいて、投稿する写真の傾向は異なる が、その写真に使われる名詞の傾向は同じだった
最終的には、写真を初め、音楽や動画といったマルチメディアとあわせた テクスト意味分析を可能とすることが望まれる最終的には、写真を初め、音楽や動画といったマルチメディアとあわせた テクスト意味分析を可能とすることが望まれる 5. 今後の展望 • Web上のテクストデータには、記号や内輪の造語、新語が多く含まれている ex)2ちゃんねる:orz/キター!/ネ申 etc… →記号や造語、新語をリアルタイムで登録 していくような辞書機能の作成