1 / 29

龙马网络学科情报服务平台

龙马网络学科情报服务平台. 广州阔拓信息科技有限公司. 1. 2. 3. 背景. 解决方案. 龙马网络学科情报服务平台. Contents. 背景. 我们需要网络信息吗 在购买了大量专业库的情况下,无论是科研,还是学习仍然要通过搜索引擎去寻找海量的,最新的专业信息(论文、评论、动态、文章)和新闻动态,虽然很累,但是我们离不开网络信息。何况,我们还有很多专业库没有经费去购买, 我们还要建设特色数据库,这就 更加需要求助互联网。 传统互联网搜索的缺憾 大数据时代,科研不能只局限文献,而应该向网络收集动态情报

Download Presentation

龙马网络学科情报服务平台

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 龙马网络学科情报服务平台 广州阔拓信息科技有限公司

  2. 1 2 3 背景 解决方案 龙马网络学科情报服务平台 Contents

  3. 背景 我们需要网络信息吗 • 在购买了大量专业库的情况下,无论是科研,还是学习仍然要通过搜索引擎去寻找海量的,最新的专业信息(论文、评论、动态、文章)和新闻动态,虽然很累,但是我们离不开网络信息。何况,我们还有很多专业库没有经费去购买,我们还要建设特色数据库,这就更加需要求助互联网。 传统互联网搜索的缺憾 • 大数据时代,科研不能只局限文献,而应该向网络收集动态情报 • 大量的有用信息与之擦肩而过 • 你能收集多少?你有多少时间去收集? • 不同的网站去登录,去注册,不断的发现是重复内容,不累吗? 建立特色数据库 • 图书馆借助多种软件采集互联网信息建立本地数据库,自动化程度有多高? ? ? ?

  4. 减少时间投入 扩大建设规模 减少人工投入 主动的参考咨询服务 获得搜索引擎 所不能获得的情报 智能获取网络内容的重要性

  5. 解决方案 • 龙马网络学科情报服务平台是运用尖端的搜索引擎技术、文本挖掘技术,自然语言技术、统计语言学、机器人工智能技术等面向图书馆自建特色数据库和提供参考咨询服务的整体方案。通过用户所设置的分类和关键词,对网页内容自动采集处理、自动识别、文章去重与相似度分析、敏感词过滤、智能聚类分类、自动生成摘要和关键词、主题检测、专题聚焦,分类自动入库等整套环节,利用网络内容建库的系统工程。 • 龙马网络学科情报服务平台收集网络上各种类型的与学科相关的情报,包括开放性期刊、论文、会议报告、专业文章、案例、知识性新闻、专题研讨等各种对学科和科研有用的学科情报收录入库。

  6. 解决方案

  7. 运用尖端的搜索引擎技术、文本挖掘技术,自然语言技术、统计语言学、机器人工智能技术等面向学科情报的应用需求的系统解决方案。运用尖端的搜索引擎技术、文本挖掘技术,自然语言技术、统计语言学、机器人工智能技术等面向学科情报的应用需求的系统解决方案。 高精 技术 通过网页内容的自动采集处理、自动识别、文章去重与相似度分析、敏感词过滤、智能聚类分类、自动生成摘要和关键词、主题检测、专题聚焦、统计分析,实现图书馆对目标内容管理的需要。 自动情报 采集科学 入库 简捷的定制采集和服务系统,可根据建库内容建立多级采集任务,自动归类、导出。将本地资源上传管理展示。 图书馆提供平台给教师使用,教师根据自己的研究课题,自主采集需要的网络情报。 个人 情报库 本地 建库 龙马网络学科情报服务平台

  8. 数据采集 数据处理 数据分析 知识平台 网页预处理 分布式网页爬取 高效网页去重 分布式高效索引 分布式海量信息存贮 信息过滤 文章热度分析 统计分析报表 自动分类聚类 热词发现 智能检索 分类导航 元搜索 网页变化侦测 RSS解析 正文提取 标题提取 自动摘要 文章相似度判断 本地引用记录 信息 简报 信息阅读 信息采集及内容管理 系统配置及用户权限管理 技术架构

  9. 应用平台 内容分析模块 数据抽取及清理模块 自动信息采集模块 子系统组成 多种检索方式直观使用情报 分析内容的被使用情况,分析读者的使用情况,机器学习自动优化采集精度 学科情报 服务系统 过滤垃圾信息,抽取有用信息 以精确信息采集引擎为核心,访问穿透 本地资源 管理系统

  10. 首页 • 自建数据库:用户定义采集任务,系统自动形成。

  11. 系统功能 全面 采集 精确 处理 内容 分析 访问穿透需要注册、登录的各类型网站、论坛、博客; 元搜索采集、RSS采集和指定站点采集等多种采集途径,实现采集全网覆盖;支持对多种网页格式、多种字符的采集。 页面解析、文件编码处理、文章自动去重、正文自动识别与提取、标题自动识别与提取、垃圾信息过滤、文章相似度判别、自动摘要、自动分类、热点发现、高效索引、海量信息存贮 根据网络转载、本地引用、内容数据提取、搜索引擎查询频次,判断采集的精度和全面性,自动优化算法。

  12. 主要功能

  13. 建设内容 采集 对象 采集 内容 内容 标引 自动 归类 • 论文 • 开放期刊 • 预印本 • 学科文章 • 评论 • 会议报告 • 学术动态 • 学科新闻 • 题名 • 关键词 • 内容摘要 • 来源网站 • 文章字数 • 是否带有附件 • 全网转载数 • 本地引用数 • 各大学术搜索引擎 • 数千个学术网站 • 学术论坛、博客 • 常用搜索引擎 • 全网络覆盖 • 国标学科分类 • 本馆自定义分类

  14. 自动信息采集模块 • 以精确信息采集引擎为核心,按照用户对信息的关注设置,向Internet全网络发出采集要求,使用人工参预和智能信息采集结合的方法完成信息收集任务。抓取最全面的正确信息,自动寻找首发信息源、自动去重、自动获取信息在全网络下的影响因子。 默认设置数千个影响程度大、传播面广、参与度高的专业网站 、论坛、博客,实时抓取信息,从广度和深度两层面实现信息采集;同步检索各大搜索引擎,如baidu、Google、搜狗等。实现“访问穿透”。对于需要注册、登录的网站、博客、论坛,通过对特定的url的描述,实现自动进入。规避身份验证、验证码技术,抓取的频率限制、代理限制、地址过滤等反搜索引擎技术的限制,实现对尽可能多的互联网信息的自动访问和下载;对于网络上的信息的动态变化采用机器学习技术,采用不同的策略,根据网站结构,指定探测和下载策略。可定向的分钟级网页抓取;利用有限的带宽、计算资源和存储资源,对目标范围内的信息,实现高效的抓取。

  15. 数据抽取及清理模块 • 对收集到的内容进行预处理,最终才能变成可用的入库。如页面解析、文件编码处理、正文自动识别与提取、文章自动去重、文章相似度判别、格式转换、数据清理,数据统计。需要滤除无关信息,标题自动识别与提取、垃圾信息过滤、自动摘要、自动分类、热点发现、高效索引、海量信息存贮等。保存内容的标题、出处、发布时间、内容等,最后形成格式化信息。

  16. 技术优势 • 简明友好的WEB界面 • 随停随启采集任务,通过配置控制采集速度 • 方便灵活的自定义分类,分类层级无极限 • 敏感词、垃圾词随时录 • 采集内容控制灵活,可以先审核后发布,也可以先发布后审核 • 采集内容及时编辑,可对采集的内容进行任意的编辑、裁减或者润色添加 • 系统管理和权限管理方便快捷,系统管理员和操作员各司其职 • 自动记录本地引用情况,并形成本地引用文章报表 • 自动分析历史转载情况,形成历史转载情况报表 • 多种信息检索手段

  17. 自建专题管理 • 图书馆和教师个人都可以通过平台建立自动采集任务,采集网络中的相关内容。

  18. 关键词输入 注意: • 每一行表示一个关键词组。 • 不同行关键词组之间的关系是或者(or)的关系 • 同一行里边只允许有与(and)的关系,用空格表示与(and)的关系。 • or、and和( )等符号是保留符号,不允许出现这些符号。 • 词在文章出现的次数用[]紧跟着单词后面表示,如果只出现一次就不用录入,比如:东盟[5]

  19. 设置专业网址 • 设置专业网址的目的是为了重点采集指定网站的内容。 • 对具体某个分类设置需要采集的网址,采集回来的内容就直接划分到该分类下。注意在添加网址时,需要输入该网址的完整url路径,包括前面的http协议。 • 专业网址的设置可以分为两类:

  20. 设置专业网址 • 第一种方式:按照关键词去收录文章,这种方式会按照设置的关键词去和录入的网址内容进行匹配,如果满足关键词条件,就收录回系统。

  21. 设置专业网址 • 第二种方式:对设置的网址列表文章全部收录,不跟关键词进行匹配。这种方式设置的时候要注意几点:1、所录入的网址必须是文章列表网址,这个网址下的文章列表全部收入到指定的分类。2、录入的时候要复制一个文章的链接样本,系统根据录入的链接样本进行分析,找出跟样本类似的链接进行收录。如果有翻页的文章,还可以提供一个下一页的链接样本,这样就会把翻页后的文章也收录回来。设置方式如下图所示:

  22. 过滤管理 • 过滤网址设置 • 该功能是设置一些网址,系统在扫描内容的时候不对这些网址扫描。 • 过滤词设置 • 设置一下干扰收录的垃圾词,系统在收录的时候发现文章有这些垃圾词,即使该文章满足关键词的要求,也不会收录该文章。

  23. 用户管理 • 可能涉及不同的人甚至不同的部门,因此设计了对整个系统的全部管理的自定义管理模版,用户可以配置不同权限的管理员。

  24. 基础学科情报库——龙马学科情报库 龙马学科情报库 • 龙马学科情报库全面采集了网络中的各类专业情报,并按照学科有序归类,是全国最大的学科情报总库。 覆盖国家标准的的全部58个学科门类,359个一级学科,内容包括开放性期刊、论文、会议报告、专业文章、案例、知识性新闻、专题研讨等各种对学科和科研有用的学科情报。情报数量突破百万,每日不断收录最新情报入库,年增长30~50万条学科情报。

  25. 作用

  26. 该二级页面是所有学科的文章汇集列表。 优势

  27. 该二级页面是所有学科的文章汇集列表。 收录内容

  28. 供选学科

  29. 龙马提供最先进的情报服务! 广州阔拓信息科技有限公司 联系人:曾科 13609792105

More Related