150 likes | 239 Views
基于旋律的搜索引擎. 李梓宽. 20 10 年 11 月. 项目背景. 随着网络的发展,数据的膨胀,搜索引擎在日常工作生活中变得越发重要。在技术性能成熟的现状下,人们迫切地需要一种支持多种输入形式的便捷搜索平台。 Melodis 公司旗下网站 Midomi 已经实现了旋律搜索 ,但其功能并不完善。今年 9 月,百度将其“哼唱搜索”功能投入内测,这在国内还没有先例。. Midomi 的旋律搜索. Midomi 的不足.
E N D
基于旋律的搜索引擎 李梓宽 2010年11月
项目背景 • 随着网络的发展,数据的膨胀,搜索引擎在日常工作生活中变得越发重要。在技术性能成熟的现状下,人们迫切地需要一种支持多种输入形式的便捷搜索平台。 • Melodis公司旗下网站Midomi已经实现了旋律搜索,但其功能并不完善。今年9月,百度将其“哼唱搜索”功能投入内测,这在国内还没有先例。
Midomi的不足 Midomi使用所谓的QbH哼唱技术,在搜索中掺杂了不必要的音色信息,因此需要庞大的数据库来预先存储各种音色的用户录音。即使如此,搜索的结果并不准确。
我们的想法 从音频中提取音高信息,然后对目标精确定位。
项目概述 • 本项目的目标是设计实现一个基于midi文件格式的音频搜索引擎。将用户音频信号处理得到相应 的midi文件,通过一定检索策略得到索引库中相应的音频信息,根据音频信息网络爬虫搜集返回网络中的相关网页数据,提取链接信息经索引分析器、排序器返回给用户。
开发环境 • 开发语言: • 后台:Java • 前台:JSP+Spring架构 • 开发工具: • Eclipse 3.5,SVN 1.6.11。 • 服务器: • Apache Tomcat 6.0 • MySql 6.0。
网络蜘蛛技术 • 对于网页内容的分析提取,特别是动态网页一直是网络蜘蛛面临的难题。由于开发语言的多样化,使动态网页的类型越来越多。另一方面,网络蜘蛛更难于处理的是一些脚本语言生成的网页,需要通过网站的数据库搜索才能获得信息。这给网络蜘蛛的爬取带来很大的困难。
存储技术 • 一方面,为快速高效给用户提供搜索结果,要使绝大部分查询结果提前完成运算。另一方面,由于硬件条件的影响,不能够将所有数据存储在内存中,部分数据还需存储在硬盘中,需要提供一个最佳的存储策略,应首先考虑将重要的数据存储在内存中。
数据索引技术 • 网络信息被抓取回来后需要暂时存储起来,由索引器对这些信息进行自动分析和标引,建立可供查询的索引数据库。在建立索引之前,需要对信息进行预处理。根据关键词在网站标题、网站描述等不同位置的出现情况及网站的质量级别建立索引库,对所有数据采用多进程并行的方式及采用增量式的数据库维护策略,保证数据的有效性,提高索引库与它对应的链接之间的可靠性。