1 / 15

基于旋律的搜索引擎

基于旋律的搜索引擎. 李梓宽. 20 10 年 11 月. 项目背景. 随着网络的发展,数据的膨胀,搜索引擎在日常工作生活中变得越发重要。在技术性能成熟的现状下,人们迫切地需要一种支持多种输入形式的便捷搜索平台。 Melodis 公司旗下网站 Midomi 已经实现了旋律搜索 ,但其功能并不完善。今年 9 月,百度将其“哼唱搜索”功能投入内测,这在国内还没有先例。. Midomi 的旋律搜索. Midomi 的不足.

rana-hanson
Download Presentation

基于旋律的搜索引擎

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 基于旋律的搜索引擎 李梓宽 2010年11月

  2. 项目背景 • 随着网络的发展,数据的膨胀,搜索引擎在日常工作生活中变得越发重要。在技术性能成熟的现状下,人们迫切地需要一种支持多种输入形式的便捷搜索平台。 • Melodis公司旗下网站Midomi已经实现了旋律搜索,但其功能并不完善。今年9月,百度将其“哼唱搜索”功能投入内测,这在国内还没有先例。

  3. Midomi的旋律搜索

  4. Midomi的不足 Midomi使用所谓的QbH哼唱技术,在搜索中掺杂了不必要的音色信息,因此需要庞大的数据库来预先存储各种音色的用户录音。即使如此,搜索的结果并不准确。

  5. 我们的想法 从音频中提取音高信息,然后对目标精确定位。

  6. 项目概述 • 本项目的目标是设计实现一个基于midi文件格式的音频搜索引擎。将用户音频信号处理得到相应 的midi文件,通过一定检索策略得到索引库中相应的音频信息,根据音频信息网络爬虫搜集返回网络中的相关网页数据,提取链接信息经索引分析器、排序器返回给用户。

  7. 预期效果

  8. 需求分析

  9. 分解视图

  10. 开发环境 • 开发语言: • 后台:Java • 前台:JSP+Spring架构 • 开发工具: • Eclipse 3.5,SVN 1.6.11。 • 服务器: • Apache Tomcat 6.0 • MySql 6.0。

  11. 网络蜘蛛技术 • 对于网页内容的分析提取,特别是动态网页一直是网络蜘蛛面临的难题。由于开发语言的多样化,使动态网页的类型越来越多。另一方面,网络蜘蛛更难于处理的是一些脚本语言生成的网页,需要通过网站的数据库搜索才能获得信息。这给网络蜘蛛的爬取带来很大的困难。

  12. 存储技术 • 一方面,为快速高效给用户提供搜索结果,要使绝大部分查询结果提前完成运算。另一方面,由于硬件条件的影响,不能够将所有数据存储在内存中,部分数据还需存储在硬盘中,需要提供一个最佳的存储策略,应首先考虑将重要的数据存储在内存中。

  13. 数据索引技术 • 网络信息被抓取回来后需要暂时存储起来,由索引器对这些信息进行自动分析和标引,建立可供查询的索引数据库。在建立索引之前,需要对信息进行预处理。根据关键词在网站标题、网站描述等不同位置的出现情况及网站的质量级别建立索引库,对所有数据采用多进程并行的方式及采用增量式的数据库维护策略,保证数据的有效性,提高索引库与它对应的链接之间的可靠性。

  14. 项目计划

  15. 谢谢大家!

More Related