1 / 30

数图新服务 研发 关键技术

数图新服务 研发 关键技术. 技术与产品中心 北京万方数据股份有限公司. 为啥要讲点技术?. 关键技术领域. 主要内容. 文本 数据库系统 自动标引、自动分类 交互式 检索 以用户为中心的 知识揭示 知识 脉络分析 论文相似性检测 (copy detection) 集群 与分布式服务 相关技术规范与标准. 文本数据库. Google. Baidu. 数据库是什么?. 他们的底层系统 是数据库技术吗?. 他们是数据库吗?. 万方数据知识服务平台. 文本数据库. 存储对象: 文献等文本内容:期刊论文、学位论文、会议论文、专利 …… 特点:

nalani
Download Presentation

数图新服务 研发 关键技术

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 数图新服务研发关键技术 技术与产品中心 北京万方数据股份有限公司

  2. 为啥要讲点技术?

  3. 关键技术领域

  4. 主要内容 • 文本数据库系统 • 自动标引、自动分类 • 交互式检索 • 以用户为中心的知识揭示 • 知识脉络分析 • 论文相似性检测(copy detection) • 集群与分布式服务 • 相关技术规范与标准

  5. 文本数据库 Google Baidu 数据库是什么? 他们的底层系统 是数据库技术吗? 他们是数据库吗? 万方数据知识服务平台

  6. 文本数据库 • 存储对象: • 文献等文本内容:期刊论文、学位论文、会议论文、专利…… • 特点: • 文本数据特有的结构关系:重复、层级 • 删改少,增加、检索操作(对应CRUD四个计算机操作) • 海量数据的处理能力 • B*树索引结构与算法

  7. WFIRC • 存储 • XML格式 • 支持文本、数值、日期、货币等数据类型 • 索引 • 全文索引:权重、分词策略 • 整字段索引 • 稀疏值索引 • 检索表达式 • CQL • 检索结果自动聚类 • 检索结果文献的学科、期刊、时间等分布情况 • 秒级响应

  8. WFIRC在知识服务平台的应用特色 • 多指标综合排序 • 相关度 • 标题、关键词、摘要、其他 • 文献质量 • 被引次数、核心刊、浏览次数、下载次数 • 文献新旧程度 • 论文发表时间 根据经验在知识服务平台推荐使用的三种排序方式 • 新论文优先 • 相关度优先 • 经典论文优先

  9. WFIRC在知识服务平台的应用特色 • 检索结果聚类 • 查全查准的特色考虑 • “和服”问题的处理

  10. 主要内容 • 文本数据库系统 • 自动标引、自动分类 • 交互式检索 • 以用户为中心的知识揭示 • 知识脉络分析 • 论文相似性检测(copy detection) • 集群与分布式服务 • 相关技术规范与标准

  11. 自动标引、自动分类 • 人工智能、机器学习 • 学什么?怎么学?学习成果什么?如何应用学习成果进行工作?

  12. 万方数据知识服务平台标引与分类工具特色 • 基于共现词的相关词网络 • 基于最长词优先的分词策略 • 基于千万级文献语料的学习

  13. 主要内容 • 文本数据库系统 • 自动标引、自动分类 • 交互式检索 • 以用户为中心的知识揭示 • 知识脉络分析 • 论文相似性检测(copy detection) • 集群与分布式服务 • 相关技术规范与标准 • WIKI知识分享与管理

  14. 用户的期望与失望 所想 所看 所得

  15. 用户研究和交互设计 • 用户研究 • 用户的目标 • 用户的行为模型 • 交互设计 • 系统与用户交互的流程 • 信息设计 • 何时何地何信息? • 视觉设计 • 强调、弱化 • 结构、关系 • ……

  16. 矛盾 • 用户希望付出少、得到多 • 需要展示的信息量多、界面有限 • 界面信息量多、用户关注点少 • ……

  17. 万方数据知识服务平台交互式检索与页面信息揭示万方数据知识服务平台交互式检索与页面信息揭示 • 交互式检索:一框式进入交互反馈 • 启发式信息提供 • 页面精简显示、重点突出

  18. 主要内容 • 文本数据库系统 • 自动标引、自动分类 • 交互式检索 • 以用户为中心的知识揭示 • 知识脉络分析 • 论文相似性检测(copy detection) • 集群与分布式服务 • 相关技术规范与标准 • WIKI知识分享与管理

  19. 知识脉络 • 客观事实的展示 • 基于海量文献的分析 • 共现词、引用关系的应用

  20. 主要内容 • 文本数据库系统 • 自动标引、自动分类 • 交互式检索 • 以用户为中心的知识揭示 • 知识脉络分析 • 论文相似性检测(copy detection) • 集群与分布式服务 • 相关技术规范与标准

  21. 技术方案 • 检测算法 • 基于数字指纹 • 基于词频统计 • 基于VSM的方法 • 基于文本序列模式的方法

  22. 万方数据知识服务平台-论文相似性检测服务 • 基于文本序列模式的方法 • 特点: • 速度快 • 精准

  23. 主要内容 • 文本数据库系统 • 自动标引、自动分类 • 交互式检索 • 以用户为中心的知识揭示 • 知识脉络分析 • 论文相似性检测(copy detection) • 集群与分布式服务 • 相关技术规范与标准

  24. 访问量大了怎么办? • 举例

  25. 优化软件 • 添加硬件 • 架构支持能力 • 本地服务集群 • 多节点IDC机房

  26. 万方数据知识服务平台集群与分布式方案 • 优化软件 • 支持扩展的架构: • SOA • LTM管理 • GTM管理

  27. 主要内容 • 文本数据库系统 • 自动标引、自动分类 • 交互式检索 • 以用户为中心的知识揭示 • 知识脉络分析 • 论文相似性检测(copy detection) • 集群与分布式服务 • 相关技术规范与标准

  28. Html、xml • http、https • RSS、ATOM • Z39.50、SRW、SRU、OpenSearch、OAI • CQL • WordNet、Ontology、OWL、RDF • Web 1.0、Web 2.0、Web 3.0 • SSO • …

  29. 谢谢大家!

More Related