基于文本的 Web 图片搜索

基于文本的Web图片搜索

图片信息的获取技术 • 基于内容的技术：对图片的内容本身（像素）进行分析和检索。 • 基于文本的技术：利用图片的相关文字信息作为分析对象，并提供类似于传统文本搜索的工作方式。

基于文本的提取技术 • 分析HTML结构 • Web的组织方式和一些潜在信息 • 通过启发式模式提取图片的相关文字信息 • 统计分析从而改进图片和信息的质量

利用HTML网页来进行图片搜索 • 在Internet上，通常图片和文本被有机的组织在一起，最常见的组织形式是HTML网页，于是通过HTML挖掘可以获得大量过于图片的信息。

九种信息来源 • <img>标记信息 • <img src=“url_of_image” width=“xxx” height=“yyy”alt=“some_info”…> • <a>标记 <a href=“url_of_file”tiltle=“some_info”…>

九种信息来源 • 图片所在网页的标题 <title>标记来获取图片所在网页的主题信息 • 图片所在网页的超链接信息别的网指向该网页时<a>中显示的文本 • 图片的URL信息 URL：http://www.xxx.com/images/car/benz.jpg

九种信息来源 • meta标记 • 关联的<a>和<img> <a href=“foo.html”><img src=“xxx.jpg”></a> • <table>的结构信息

九种信息来源 • 图片周围的文字 1.基于线形流：将HTML文档看作线形流，通过滤掉HTML标记以后和<img>标记相邻的文字被认为与图片“最接近”。 2.基于树状结构：将HTML文档理解为一棵树，其中与图片所在节点具有共同最低层祖先的文本被认为与该图片“最接近”

Example <body> <table> <tr><td> <font>TEXT1</font> </tr></td> <tr><td> <img src=“xxx.jpg”> </tr></td> </table> TEXT2 </body>

HTML信息提取方法 • HTML文档的规范化 • 基于DOM的提取方法 • 基于字符串的提取方法 • 基于Wrapper的提取方法

基于Wrapper的提取方法 • 一个wrapper可以看作是过程，它通常用半结构化的文档作为输入，利用其中的有限结构信息和一定的规则，提出期望的数据，并表示为具有足够的结构信息的结构化文本

基于字符串的提取方法 • 利用一个简单的标记识别模块来发现标记，标记模块提供一个GetNextTagInfo（）函数，顺序扫描HTML文档，对文档中的常见的不规范表示进行纠错，并将标记的信息填固定的结构，交给上一层处理。 • 在进行上下文提取时，设定一个距离上限Dmax，相对于<img>标记在文本流中的位置分别往前往后搜索Dmax个字符，过滤掉其中的标记信息，将余下的文本作为图片的上下文信息 • [img_url]\t[from_url]\[网页标题]\t[ALT属性值]\t[超链接文本]\t[上下文]\t

Wrapper的生成 • 手工生成 • 半自动生成 • 自动生成使用了机器学习技术 • Wrapper归纳是一种用于自动生成的技术，使用了归纳学习算法。归纳学习法是一种通过分析一个未知的集合中的某些遵循某种规律的实例集合，归纳出一般性的规则，并利用这些规则来推知该集合得其他部分的方法

Wrapper • 比较简单的wrapper：LR wrapper • 经过改进的Wrapper：HLRT、OCLR、HOCLRT、N-LR、N-HLRT

无用图片过滤 • 文件尺寸比较小，包括文件大小和长宽 • 长宽比例比较大 • 同一网页中有多个<img>标记指向同一图片

挖掘HTML的潜在规律 • GIF和JPG的区别 • <a>和<img>的不同意义 • 图片引用次数的分析

基于文本的 Web 图片搜索

基于文本的 Web 图片搜索

Presentation Transcript