750 likes | 905 Views
网络搜索和挖掘关键技术 Web Search and Mining. 张华平 副 研究员 博士 Email: kevinzhang@bit.edu.cn Website: http:// www.nlpir.org / @ICTCLAS张华平博士 网络搜索挖掘与安全实验室 (wSMS@BIT) 计算机科学与技术前沿讲座 2011- 9 - 1 6. 从玫凯琳任务开始. Mission: 产业环境越来越差,有朋友准备放弃别的生意,全力投资玫凯琳,大家都说不错,形象好,国际大品牌;找到计算机专家的你,请问你如何帮她进行投资决策?
E N D
网络搜索和挖掘关键技术Web Search and Mining 张华平 副研究员博士 Email: kevinzhang@bit.edu.cn Website: http://www.nlpir.org/ @ICTCLAS张华平博士 网络搜索挖掘与安全实验室 (wSMS@BIT) 计算机科学与技术前沿讲座 2011-9-16
从玫凯琳任务开始... • Mission: 产业环境越来越差,有朋友准备放弃别的生意,全力投资玫凯琳,大家都说不错,形象好,国际大品牌;找到计算机专家的你,请问你如何帮她进行投资决策? • 限定条件:你没有一个叫李刚的爹,也没有郭美美干爹那样的神通,也没有世界杰出华商的手段。一人一机一网尔!
背景资料 • 玫琳凯就以“丰富女性人生”为己任,致力于创建一个“全球女性共享的事业”。 • 倡导“信念第一、家庭第二、事业第三”的生活优先次序。 • 玫琳凯在销售她的化妆品的同时,也在销售她的工作哲学和生活哲学。 玫琳凯更重要的贡献是以她的企业文化激励了千千万万妇女,纷纷成为小型企业经营者,她以不断的鼓励及物质报酬来提升妇女的自尊和自信。 • 玫凯琳女士不远万里,来到中国为了拯救万千中国女士,让她们找到美丽和自信,同时收获一份事业!
什么是网络搜索与挖掘 • 在社会网络化与网络社会化的大背景下,面向海量异构互联网交互信息,针对特定的情报目标,以信息检索、自然语言处理、网络科学三驾马车为主要手段,基于互联网的群体智慧挖掘提炼出有价值情报的过程。 • 四步曲:目标分解,信息收集,分析去噪,情报提炼。 • 网络搜索与挖掘在政府舆情、军事信息战、企业竞争情报、个人社交等方面具有广泛的应用前景。
群体智慧 • 三个臭皮匠,顶个诸葛亮; • 你可以在所有时间欺骗某些人,也可以在某个时间欺骗所有人,不可能在所有时间欺骗所有人; • 信息碎片化,导致去精英化; • 互联网海量的群体与信息,导致小概率事件(百万分之一)发生的频率期望值可观察可度量。而互联网搜索为海里捞针提供了技术手段。
网络搜索与挖掘的要件 • 信息可达(Accessible):互联网真实记录并可采集抽取到相关的信息(无论Surface/Deep,无论真假,无论规模); • 群体规模(Amount):海量规模确保各类UGC(用户产生的内容)能满足挖掘所需; • 目标可解(Analysible):挖掘目标本身具有可解行,能够进一步分解具体落实; • 工具可行(Avaliable):检索工具与分析工具具备可行的计算代价与分析效率;
Who’s talking • 张华平,北理工网络搜索挖掘与安全实验室负责人,副教授,研究生导师,研究方向:自然语言处理、信息检索、信息安全。获得2011年钱伟长中文信息处理科学技术奖一等奖,中科院院长奖,中科院计算所所长特别奖,专著2部,专利3项,国内外论文20余篇。 • 经历: • 2000-2005年在中科院计算所硕博连读,获博士学位,研制汉语分词系统ICTCLAS(目前用户数超过10万家),博士期间参与新颖性监测研究,参加TREC 2004 Novelty Track在国际14家团队中,综合排名第一; • 2006-2009年,创办中科计算技术转移中心网络智能事业部(30余人),先后担任了863、242、中国证监会舆情系统、工信部网络监管、中国移动云计算搜索等重大项目。 • 2009年底至今,目前承担了科技部及安全部重大项目。
报告纲要 • 网络精准搜索关键技术 • 网络智能挖掘关键技术 • 典型应用案例
信息检索技术的应用 舆情分析 推荐 搜索 IR技术 内容安全 情报处理 挖掘
Document corpus Spider Query String Web 1. Page1 2. Page2 3. Page3 . . Ranked Documents Web Search Using IR IR System
最简单的搜索引擎 • 搜索引擎结构 索 引 检 索 用 户 接 口 采集器 www 索引库 … 文档库 采集器
倒排索引 文档分析,编码识别,词语切分,去停用词等 索引库 文档库 预处理 Invert 文档倒排,生成Inverted Files
Ranking和信息检索 • 信息检索是一个查询Q和文档Dd相似度计算过程: • 存在一个问题:当Q包含常用词t时,那些包含比较多t的文档总是排在前面,其他的非常用词根本不起作用,所以需要根据inverse document frequency (IDF)计算Term的权重 wt: ft是包含term t的文档数
向量空间模型 • 向量空间模型(Vector Space Model,VSM)是康奈尔大学 Salton等人上世纪70年代提出并倡导,原型系统SMART* • term独立性假设:term在文档中的出现是独立、互不影响的。 • 查询和文档都可转化成term及其权重组成的向量表示,都可以看成空间中的点。向量之间通过距离计算得到查询和每个文档的相似度。
文档-标引项矩阵(Doc-Term Matrix) n篇文档,m个标引项构成的矩阵Am*n,每列可以看成每篇文档的向量表示,同时,每行也可以可以看成标引项的向量表示。
一个例子 • 查询q:(<2006,1>,<世界杯,2>) • 文档d1:(<2006,1>,<世界杯,3>,<德国,1>,<举行,1>) • 文档d2:(<2002,1>,<世界杯,2>,<韩国,1>,<日本,1>,<举行,1>)
一个例子(续) • 查询和文档进行向量的相似度计算: • 采用内积: • 文档d1与q的内积:1*1+3*2=7 • 文档d2与q的内积:2*2=4 • 夹角余弦: • 文档d1与q的夹角余弦: • 文档d2与q的夹角余弦:
我们的工作:JZSearch精准搜索引擎 • 具有高扩展性和高通用性。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持丰富的查询语言和查询类型,支持少数民族语言的搜索。目前已经应用于中国邮政搜索引擎、通河北省标准搜索引擎、富基融通(纳斯达克上市公司:EFUT)商品搜索。 • 同时,全文搜索中间件可以无缝地与现有数据库系统融合,实现全文搜索与相关的数据库管理应用系统。
JZSearch内部语法示例 • [FIELD] * [NEAR] 尚福林 卖国贼 9 • [FIELD] * [FUZZY] 张华平 kevinzhang 张博士 • [FIELD] price [RANG] 1.0 9.0 [FIELD] name [AND] 牛奶 儿童 • [FIELD] name [PREF] 张 • 姓名字段name必须以“张”作为前缀开头 • [FIELD] id [PREC] 123 • 字段id必须以“123”精准匹配,如“1234”或者“0123”均不作为匹配结果;
报告纲要 • 网络精准搜索关键技术 • 网络智能挖掘关键技术 • 相关应用
汉语分词 • 汉语的书面语是按句分开的,词与词之间没有明确的分隔标记。 • 词是最小的能够独立活动的有意义的语言成分 。 • 中文信息处理只要涉及句法、语义(如检索、翻译、文摘、校对等应用),就需要以词为基本单位。句法分析、语句理解、自动文摘、自动分类和机器翻译等,更是少不了词的详细信息 。
汉语分词系统 ICTCLAS主要功能包括中文分词、词性标注等功能。 国内和国际权威的公开评测第一;全球二十万客户的认可; 综合性能最优,ICTCLAS2011分词速度单机996KB/s,分词精度98.45%。 全方位支持各种环境下的应用开发,支持Windows/Linux/ FreeBSD操作系统,支持C/C++/C#/Java/VB等主流编程语言; ICTCLAS 10年的开发经历,20万开源用户,2011年获得钱伟长中文信息处理科学技术奖一等奖。
新特征语言发现 • 新特征语言:在自然语言中频繁出现、具有特定语义、系统未收录的新词或者新的短语。 • 具有以下几个特性: • 语义上:表意完整、所指明确,在意义上有一定的完整性和专指性。 • 语用上:语用环境灵活,能够在多种语言环境中出现。 • 结构上:内部结构稳定,具有一定的凝固性。 • 统计上:具有一定流通度,在真实语料中频繁出现。