800 likes | 1.04k Views
日本人文社会科学中的文本计算. 同志社 大学 文化情报学部 . 金 明哲 ( mjin@mail.doshisha.ac.jp ). Jin Mingzhe. 同志社大学 Doshisha University. 内容. 文本挖掘与计算 文本挖掘与计算的商用软件 日本企业的文本挖掘与计算的现状 文本计算的免费软件 文本计算统计分析软件 MLTP+R 文本计算应用的相关领域 文体计算 ( Stylometry ) 分析(两个实例) 文体计算与法语言学(两个实例). 同志社大学 Doshisha University. Jin Mingzhe.
E N D
日本人文社会科学中的文本计算 同志社大学 文化情报学部 金 明哲 (mjin@mail.doshisha.ac.jp) Jin Mingzhe 同志社大学 Doshisha University
内容 • 文本挖掘与计算 • 文本挖掘与计算的商用软件 • 日本企业的文本挖掘与计算的现状 • 文本计算的免费软件 • 文本计算统计分析软件MLTP+R • 文本计算应用的相关领域 • 文体计算(Stylometry)分析(两个实例) • 文体计算与法语言学(两个实例) 同志社大学 Doshisha University Jin Mingzhe
现实世界的信息 • 图像,语音,文字,数字 • 可获得的大部信息是以文本形式 • 如新闻文档、研究论文、书籍、数字图书馆、电子邮件和Web页面等 • 由于电子形式的文本信息飞速增长 • 需要从文本数据中挖掘信息和知识 Jin Mingzhe 同志社大学 Doshisha University
文本挖掘与计算 Googl检索结果 2010年12月18日 • text mining 5,760,000 • textual data mining 1,010,000 • statisitcal analysis of text/textual data 85,300 • statisitcal analysis of corpus/corpora 20,520 • computation of text /textual 10,560 • text /textual computation 2,674 • text/textual computing 35,241 • computing text /textual 91,788 • computation of corpus/corpora 4,002 • quantitative text/textualanalysis 189,400 文本计算科学 Jin Mingzhe 同志社大学 Doshisha University
文本挖掘/计算 • 文本挖掘(Text Mining)是一个从文本数据中获取用户感兴趣的模式,转换为有价值的信息和知识的过程。 • 文本挖掘是由数据挖掘的词汇派生 • 数据挖掘所用的是表格形式的数据(也称结构化的数据) • 而文本挖掘所用的是非结构化的数据 • 核心:NLP技术,数据挖掘/统计分析 Jin Mingzhe 同志社大学 Doshisha University
文本挖掘的主要内容与计算 文本挖掘 统计计算 • 文本摘要 • 文本元素的抽取 • 文本元素的建模 • 文本特征与结构分析 • 文本聚类 • 文本分类 • 文本元素的趋势预测 • 文本元素的关联分析 • ??? • 检验统计量,信息熵等 • 统计指数与建模 • 主成份/对应分析/SOM等 • 层次/k平均聚类法 • 判别分析/模式识别 • 回归分析/生存分析 • 关联/相关分析 Jin Mingzhe 同志社大学 Doshisha University
词/句法分词工具 • 形态素分析 JUMAN(1992年,京都大学 长尾真) ChaSen(茶筅,1997年,奈良科大,松本裕治) MeCab(2002年,京都大学&NTT,工藤拓) Breakfast(富士通),SuMoM0(NTT),KAKASI(佐藤雅彦) • 句法分析 JUMAN/KNP(1993年,京都大学 长尾真) CaBoCha(南瓜,2001年,奈良科大学,工藤拓) 注:奈良科大=奈良先端科学技术大学院大学 Jin Mingzhe 同志社大学 Doshisha University
形态素解析结果 Jin Mingzhe 同志社大学 Doshisha University
句法分析(构文解析) • 不用语树,因为语树不适合于日语 • 以文节为单位切分、每个文节在其右方至少有一个文节和它对应。 • 这种对应关系叫“係受関係”。第几个文节与第几个文节缔结关系( Dependency Analysis ) • 切分文节的精度达95%左右 • 係受関係的精度达90%左右 Jin Mingzhe 同志社大学 Doshisha University
句法分析的输出结果 Jin Mingzhe 同志社大学 Doshisha University
日本的商业文本挖掘的软件(1) 1997年开始出售 中文版 ( 2003/12/10) 2001年9月 Ver.1.0 现在也有中文版 Jin Mingzhe 同志社大学 Doshisha University
日本的商业软件(2) Jin Mingzhe 同志社大学 Doshisha University
野村证卷的 TRUE TELLER 450多个企事业单位利用,现在可处理中文 Jin Mingzhe 同志社大学 Doshisha University
松下电工公司的voc21系统用野村证卷的TRUE TELLER Jin Mingzhe 同志社大学 Doshisha University
佳能的CATS(Call Analysis Tracking System) • 2004年09月 • “提高产品质量10倍”的运动 • 挖掘用户的“声音”信息
文本挖掘改善集团内各公司的业务(欧姆龙市场营销)文本挖掘改善集团内各公司的业务(欧姆龙市场营销) Jin Mingzhe 同志社大学 Doshisha University
三菱电机信息系统(株)的DIAMings http://www.mdis.co.jp/products/diamining/ Jin Mingzhe 同志社大学 Doshisha University
三菱公司内的文本挖掘系统发展过程 • 2006年客户服务管理系统ARS(BMC Remedy Action Request System®) • 之后ARS连接CTI(Computer Telephony Integration) • 每月对于约4万件的咨询 • 2010年12月开始新的文本挖掘系统 Jin Mingzhe 同志社大学 Doshisha University
并用DIAMining EX和VextMiner使用两个文本挖掘引擎 把握整个趋势 检索概念 http://www.mitsubishielectric.co.jp/meltopia/backnumber/2011/06/case04.html Jin Mingzhe 同志社大学 Doshisha University
日本东邦大学与IBM合作 • 2011年6月6日 • 开发研究医疗文本信息以及时间序列数据的整合应用系统 • 大学医院:利用积累的大量的电子文本以及时间序列信息的视觉化信息,力求改善医疗质量和安全 • IBM:通过现场数据进行文本挖掘技术的开发以及推广研究成果,特别是语义处理技术的研究和开发 Jin Mingzhe 同志社大学 Doshisha University
富士通的文本挖掘软件2011/12/16日开始出售 文档和互联网上的产品投诉(Claim)信息抽取及分析 Jin Mingzhe 同志社大学 Doshisha University
Text Mining Studio • 词/句为单位 • 配有词典/用户词典 • 基本信息 • 频率分析 • 特色语分析 • 特征分析 • 情感分析 • 话题分析 • 时间序列分析 • 目前大学里用户较多 Jin Mingzhe 同志社大学 Doshisha University
人文社会学领域中文本计算的问题 • 利用计算的手法进行文本分析的人不少,但不知无从下手 • 编程难度大,计算手法知识贫乏 • 商用软件价格昂贵 • 渴望使用方便的免费软件 • 理工科:有能力不想做 • 文科:想做没有能力 Jin Mingzhe 同志社大学 Doshisha University
免费文本计算软件 • ChaKi(茶器,奈良科大,松本裕治),分词后的结果装入数据库SQL里,管理切分好的语料 • TTM(TinyTextMiner), 松村真宏(大阪大学), 三浦 麻子(关西学院大学)输入的是CSV文档,输出6种统计数据表,分析要用统计软件 • KH-coder, 樋口耕一(立命館大学),输入的是一个文档 • RMecab, 石田基広(徳島大学),在免费统计软件R运行分词软件,可直接进行挖掘与统计分析 • HTML+R(MLTP(MultiLingual Text Processor+ R), 金明哲(同士社大学) Jin Mingzhe 同志社大学 Doshisha University
MLTP+R(文本统计分析工具) • MLTP(MultiLingual Text Processor)多语种文本处理器(日文, 中文, 韩文, 英文,蒙文等) • 利用Java开发 • MLTP+R: 文本处理器MLTP上附加了统计分析软件R • 字符为单位 文本的大小,文长,n-gram频率,KWIC等 • 词为单位 词/文的长,n-gram, 同现,KWIC等 • 基于文节为单位(日语) 文节长,文节的n-gram,文节同现,文节模式等 • 以文本为单位进行统计 Jin Mingzhe 同志社大学 Doshisha University
MLTP+R的框架 利用R进行各种分析 文本处理 结构化 文本库 词法分析 长度 n-gram, 同现 句法分析 词典 语义分析 模式 Jin Mingzhe 同志社大学 Doshisha University
MLTP画面 2.指定文本种类 1.指定语种 3.指定文本 4.指定统计的文本 Jin Mingzhe 同志社大学 Doshisha University
指定词性统计词频 1.指定WordPOS 2.指定n-gram 3.指定Cutoff值 4.指定数据形式 5.行/列为文本 7.确认 6.选择词性 8.统计 9.保存 Jin Mingzhe 同志社大学 Doshisha University
登录滤掉词句 • 菜单Setting里的Stop Words 1.指定WordPOS 2.登入语素 5.从新统计 4.关闭 3.保存 Jin Mingzhe 同志社大学 Doshisha University
最终的统计 • 通过观察没有再除外的元素后进行统计 统计分析用的数据最好是行是文本 指定保存的文件夹和文件名 保存 Jin Mingzhe 同志社大学 Doshisha University
统计分析 • MLTP的现在版本,如果R是2.13.0版本,可在MLTP上直接用R进行分析 Jin Mingzhe 同志社大学 Doshisha University
统计分析画面 执行R指令区域 统计操作菜单 数据变换操作按钮 指令的结果输出区域 Jin Mingzhe 同志社大学 Doshisha University
利用菜单的基本统计功能 • 文本的基本信息 • 检索(KWIC,可用正则表达式) • Zipf定律,词汇丰富度计算(12种方法) • TF-IDF计算,特征词的选取与图示 • 词/短语的网络拓扑分析 • 文本特征分析(主成分分析,对应分析等) • 分本聚类(层次聚类,k-means,多维标度法等) • 分本分类(k-NN法,决策树,RF法,SVM法等) Jin Mingzhe 同志社大学 Doshisha University
统计分析的例子 Jin Mingzhe 同志社大学 Doshisha University
日本的文本挖掘方面的书籍 • 実践 ブログ・リサーチ,同文館出版,2011-12 • 特許情報のテキストマイニング―技術経営のパラダイム転換,ミネルヴァ書房, 2011-03 • テキストマイニングで広がる看護の世界,ナカニシヤ出版 (2010-12) • テキストマイニングハンドブック,東京電機大学出版局, 2010-07 • 数量化理論とテキストマイニング,日科技連出版社, 2010-05 • テキストデータの統計科学入門,岩波書店, 2009-04-28 • 人文・社会科学のためのテキストマイニング,誠信書房, 2009-04 • Rによるテキストマイニング入門,森北出版, 2008-12 • テキストマイニング入門―経営研究での活用法,白桃書房,2008-02 • 事例で学ぶテキストマイニング,共立出版, 2008-01 • 顧客の声マネジメント―テキストマイニングで本音を「見る」,オーム社, 2007-05 • テキストマイニングを使う技術/作る技術,東京電機大学出版局,2006-11 • 福祉・心理・看護のテキストマイニング入門,中央法規出版, 2005-07 Jin Mingzhe 同志社大学 Doshisha University
文本挖掘与统计分析的主要应用 • Web信息搜索,博客管理,对于产品的评价信息 • 网络风险管理 • 企业与产品信息管理和分析 • 医疗,护理 • 经济/金融信息 • 语料库分析,文体分析,法语言学 • 只要与文本有关领域都有应用空间 • : Jin Mingzhe 同志社大学 Doshisha University
文本的统计 • 字符,单词,音节,短语,文…… • 频率 • 长度(单词/文的长度分布) • n-gram • 共现 • : Jin Mingzhe 同志社大学 Doshisha University
数据的格式(变量xi是词……) 同志社大学 Doshisha University Jin Mingzhe
问卷/市场调查 同志社大学 Doshisha University Jin Mingzhe
词与学科的对应关系 同志社大学 Doshisha University Jin Mingzhe
学科/系之间明显差异的词(前50个) 关于学费是F学科 关于学习环境是B学科 关于课程设置是D学科 同志社大学 Doshisha University Jin Mingzhe
个别文节共现拓扑网络 同志社大学 Doshisha University Jin Mingzhe
词的共现关系(关联分析) • 在校学生的问卷调查 同志社大学 Doshisha University Jin Mingzhe
词共现与学科的对应散图 同志社大学 Doshisha University Jin Mingzhe
文体统计研究 • 1851年,英国数学家A.DeMorgen提出词长是文章风格的特征 • 1867年,英国的Cambell利用特定的单词的使用频率对于希腊哲学家Platon的作品的执笔顺序问题进行了推定 • 1887年,美国Ohio州立大学地球物理学教授Mendenhall指出单词的长度具有作者的特征,发表在≪科学 Science,IX≫ • 1938年统计学者G. U. Yule利用文的长度进行了作者归属的统计分析,1944年发表了《文学词汇的统计分析》一书 同志社大学 Doshisha University Jin Mingzhe
文本分类及作者的识别 特征信息 模式识别或分類 • 字符的信息 • 单词的长度,文的长度 • 词的频率 • n-gram • 共现关系 • 线性模型 • 贝叶斯模型 • 决策模型 • 神经网络模型 • 支持向量 • 集成学习法 同志社大学 Doshisha University Jin Mingzhe
问题 • 文本当中提取什么? 重点在于文本的内容--名词 重点在于评价 --形容词 著者的特征 --???? • 如何处理? 统计分析,数据挖掘 同志社大学 Doshisha University Jin Mingzhe
提出的著者特征的抽取方法(日语) • 单词的长度,文的长度, • 段落的长度,文头/尾的模式 • 逗号点法 字符信息 • 助词的n-gram 文的骨架/文型 • 词性的n-gram 词法 • 文节的模式特征 句法 • : 过去 我 同志社大学 Doshisha University Jin Mingzhe
逗号点在什么字的后面 基于逗号用法数据的树形图 井上 靖 中島 敦 谷崎 潤一郎 三島 由紀夫 Jin Mingzhe 同志社大学 Doshisha University
长谷川海太郎的三个笔名的文章 中島 三島 井上 長谷川 Jin Mingzhe 同志社大学 Doshisha University