1 / 75

网络搜索和挖掘关键技术 Web Search and Mining

网络搜索和挖掘关键技术 Web Search and Mining. 张华平 副 研究员 博士 Email: kevinzhang@bit.edu.cn Website: http:// www.nlpir.org / @ICTCLAS张华平博士 网络搜索挖掘与安全实验室 (wSMS@BIT) 计算机科学与技术前沿讲座 2011- 9 - 1 6. 从玫凯琳任务开始. Mission: 产业环境越来越差,有朋友准备放弃别的生意,全力投资玫凯琳,大家都说不错,形象好,国际大品牌;找到计算机专家的你,请问你如何帮她进行投资决策?

teigra
Download Presentation

网络搜索和挖掘关键技术 Web Search and Mining

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 网络搜索和挖掘关键技术Web Search and Mining 张华平 副研究员博士 Email: kevinzhang@bit.edu.cn Website: http://www.nlpir.org/ @ICTCLAS张华平博士 网络搜索挖掘与安全实验室 (wSMS@BIT) 计算机科学与技术前沿讲座 2011-9-16

  2. 从玫凯琳任务开始... • Mission: 产业环境越来越差,有朋友准备放弃别的生意,全力投资玫凯琳,大家都说不错,形象好,国际大品牌;找到计算机专家的你,请问你如何帮她进行投资决策? • 限定条件:你没有一个叫李刚的爹,也没有郭美美干爹那样的神通,也没有世界杰出华商的手段。一人一机一网尔!

  3. 背景资料 • 玫琳凯就以“丰富女性人生”为己任,致力于创建一个“全球女性共享的事业”。 • 倡导“信念第一、家庭第二、事业第三”的生活优先次序。 • 玫琳凯在销售她的化妆品的同时,也在销售她的工作哲学和生活哲学。 玫琳凯更重要的贡献是以她的企业文化激励了千千万万妇女,纷纷成为小型企业经营者,她以不断的鼓励及物质报酬来提升妇女的自尊和自信。 • 玫凯琳女士不远万里,来到中国为了拯救万千中国女士,让她们找到美丽和自信,同时收获一份事业!

  4. 网络社会化,社会网络化...

  5. 社会网络化与网络社会化

  6. 社会网络化与网络社会化

  7. 社会网络化与网络社会化

  8. 社会网络化与网络社会化

  9. 社会网络化与网络社会化

  10. 引证权威信息-阳光中国

  11. 还有更多的内幕需要搜索挖掘...

  12. 卢美美

  13. 李双江之子打人

  14. 什么是网络搜索与挖掘 • 在社会网络化与网络社会化的大背景下,面向海量异构互联网交互信息,针对特定的情报目标,以信息检索、自然语言处理、网络科学三驾马车为主要手段,基于互联网的群体智慧挖掘提炼出有价值情报的过程。 • 四步曲:目标分解,信息收集,分析去噪,情报提炼。 • 网络搜索与挖掘在政府舆情、军事信息战、企业竞争情报、个人社交等方面具有广泛的应用前景。

  15. 群体智慧 • 三个臭皮匠,顶个诸葛亮; • 你可以在所有时间欺骗某些人,也可以在某个时间欺骗所有人,不可能在所有时间欺骗所有人; • 信息碎片化,导致去精英化; • 互联网海量的群体与信息,导致小概率事件(百万分之一)发生的频率期望值可观察可度量。而互联网搜索为海里捞针提供了技术手段。

  16. 互联网频繁的小概率事件

  17. 网络搜索与挖掘的要件 • 信息可达(Accessible):互联网真实记录并可采集抽取到相关的信息(无论Surface/Deep,无论真假,无论规模); • 群体规模(Amount):海量规模确保各类UGC(用户产生的内容)能满足挖掘所需; • 目标可解(Analysible):挖掘目标本身具有可解行,能够进一步分解具体落实; • 工具可行(Avaliable):检索工具与分析工具具备可行的计算代价与分析效率;

  18. Who’s talking • 张华平,北理工网络搜索挖掘与安全实验室负责人,副教授,研究生导师,研究方向:自然语言处理、信息检索、信息安全。获得2011年钱伟长中文信息处理科学技术奖一等奖,中科院院长奖,中科院计算所所长特别奖,专著2部,专利3项,国内外论文20余篇。 • 经历: • 2000-2005年在中科院计算所硕博连读,获博士学位,研制汉语分词系统ICTCLAS(目前用户数超过10万家),博士期间参与新颖性监测研究,参加TREC 2004 Novelty Track在国际14家团队中,综合排名第一; • 2006-2009年,创办中科计算技术转移中心网络智能事业部(30余人),先后担任了863、242、中国证监会舆情系统、工信部网络监管、中国移动云计算搜索等重大项目。 • 2009年底至今,目前承担了科技部及安全部重大项目。

  19. 报告纲要 • 网络精准搜索关键技术 • 网络智能挖掘关键技术 • 典型应用案例

  20. 信息检索技术的应用 舆情分析 推荐 搜索 IR技术 内容安全 情报处理 挖掘

  21. Document corpus Spider Query String Web 1. Page1 2. Page2 3. Page3 . . Ranked Documents Web Search Using IR IR System

  22. 最简单的搜索引擎 • 搜索引擎结构 索 引 检 索 用 户 接 口 采集器 www 索引库 … 文档库 采集器

  23. 倒排索引 文档分析,编码识别,词语切分,去停用词等 索引库 文档库 预处理 Invert 文档倒排,生成Inverted Files

  24. Ranking和信息检索 • 信息检索是一个查询Q和文档Dd相似度计算过程: • 存在一个问题:当Q包含常用词t时,那些包含比较多t的文档总是排在前面,其他的非常用词根本不起作用,所以需要根据inverse document frequency (IDF)计算Term的权重 wt: ft是包含term t的文档数

  25. 向量空间模型 • 向量空间模型(Vector Space Model,VSM)是康奈尔大学 Salton等人上世纪70年代提出并倡导,原型系统SMART* • term独立性假设:term在文档中的出现是独立、互不影响的。 • 查询和文档都可转化成term及其权重组成的向量表示,都可以看成空间中的点。向量之间通过距离计算得到查询和每个文档的相似度。

  26. 文档-标引项矩阵(Doc-Term Matrix) n篇文档,m个标引项构成的矩阵Am*n,每列可以看成每篇文档的向量表示,同时,每行也可以可以看成标引项的向量表示。

  27. 一个例子 • 查询q:(<2006,1>,<世界杯,2>) • 文档d1:(<2006,1>,<世界杯,3>,<德国,1>,<举行,1>) • 文档d2:(<2002,1>,<世界杯,2>,<韩国,1>,<日本,1>,<举行,1>)

  28. 一个例子(续) • 查询和文档进行向量的相似度计算: • 采用内积: • 文档d1与q的内积:1*1+3*2=7 • 文档d2与q的内积:2*2=4 • 夹角余弦: • 文档d1与q的夹角余弦: • 文档d2与q的夹角余弦:

  29. 我们的工作:JZSearch精准搜索引擎 • 具有高扩展性和高通用性。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持丰富的查询语言和查询类型,支持少数民族语言的搜索。目前已经应用于中国邮政搜索引擎、通河北省标准搜索引擎、富基融通(纳斯达克上市公司:EFUT)商品搜索。 • 同时,全文搜索中间件可以无缝地与现有数据库系统融合,实现全文搜索与相关的数据库管理应用系统。

  30. JZSearch内部语法示例 • [FIELD] * [NEAR] 尚福林 卖国贼 9 • [FIELD] * [FUZZY] 张华平 kevinzhang 张博士 • [FIELD] price [RANG] 1.0 9.0 [FIELD] name [AND] 牛奶 儿童 • [FIELD] name [PREF] 张 • 姓名字段name必须以“张”作为前缀开头 • [FIELD] id [PREC] 123 • 字段id必须以“123”精准匹配,如“1234”或者“0123”均不作为匹配结果;

  31. 我们的工作:JZSearch精准搜索引擎

  32. 我们的工作:JZSearch精准搜索引擎

  33. 我们的工作:JZSearch精准搜索引擎

  34. 报告纲要 • 网络精准搜索关键技术 • 网络智能挖掘关键技术 • 相关应用

  35. 汉语分词 • 汉语的书面语是按句分开的,词与词之间没有明确的分隔标记。 • 词是最小的能够独立活动的有意义的语言成分 。 • 中文信息处理只要涉及句法、语义(如检索、翻译、文摘、校对等应用),就需要以词为基本单位。句法分析、语句理解、自动文摘、自动分类和机器翻译等,更是少不了词的详细信息 。

  36. ICTCLAS汉语分词系统

  37. ICTCLAS汉语分词系统

  38. ICTCLAS2011分词系统示例

  39. 汉语分词系统 ICTCLAS主要功能包括中文分词、词性标注等功能。 国内和国际权威的公开评测第一;全球二十万客户的认可; 综合性能最优,ICTCLAS2011分词速度单机996KB/s,分词精度98.45%。 全方位支持各种环境下的应用开发,支持Windows/Linux/ FreeBSD操作系统,支持C/C++/C#/Java/VB等主流编程语言; ICTCLAS 10年的开发经历,20万开源用户,2011年获得钱伟长中文信息处理科学技术奖一等奖。

  40. ICTCLAS2011汉语分词系统

  41. 新特征语言发现 • 新特征语言:在自然语言中频繁出现、具有特定语义、系统未收录的新词或者新的短语。 • 具有以下几个特性: • 语义上:表意完整、所指明确,在意义上有一定的完整性和专指性。 • 语用上:语用环境灵活,能够在多种语言环境中出现。 • 结构上:内部结构稳定,具有一定的凝固性。 • 统计上:具有一定流通度,在真实语料中频繁出现。

  42. 新特征语言的发现

  43. 新特征语言识别结果示例

  44. 基于关键词提取的微博个性分析

  45. 基于关键词提取的微博个性分析

More Related