稀疏查询的推荐算法与性能评价问题的研究

稀疏查询的推荐算法与性能评价问题的研究 答辩人：马中瑞 2009级计算机应用技术指导教师：陆嘉恒副教授研究方向：信息检索、数据挖掘 2012 年 05 月 17 日

大纲 • 绪论 • 相关工作 • 基于Term-Query图的随机游走模型 • 基于查询文档的查询推荐算法 • 查询推荐评价指标优化 • 实验结果分析 • 总结展望稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法绪论 • 研究背景与动机 • 查询推荐在搜索引擎中应用 • 为什么是稀疏查询？ • 稀疏查询在查询日志中出现频率偏低 • 传统方法无法处理稀疏类查询 • Click-through 或 Session • 微软必应日志统计分析 • 33.95%惟一查询，并占有22.55%的访问量稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法绪论 • 研究内容及贡献 • 解决稀疏查询的生成推荐问题 • 提出Term-Query图的随机游走模型算法 • 提出查询文档概念及相关算法 • QSearch算法 • DSearch算法 • 全新的查询推荐评价指标 • 和稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法相关工作 • 基于会话日志的查询推荐 • 基于关联规则 • [Fonseca et al., 2003] • 基于Query-Flow图的推荐算法 • [Boldi et al., 2008][Bordino et al., 2010]等 • 基于点击日志的查询推荐 • Query-URL二部图 • 点击次数[Mei et al., 2008] • 信息熵[Deng et al., 2009] • 随机游走算法 query-flow图 query-url图稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法相关工作 • 其他查询推荐 • 合并Click-through和Session信息 • 基于概念序列的推荐算法[Cao et al., 2008] • 基于查询优化图的推荐算法[Sadikov et al., 2010] • Anchor日志[Deng and Croft, 2010] • 基于语料库的查询推荐[Bhatia et al., 2011] • N-grams抽取短语词库 • 计算部分查询与短语的概率稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法相关工作 • 稀疏查询推荐算法 • 基于隐式用户反馈信息[Song and He, 2010] • 点击Query-URL图，转移矩阵 • 跳过Query-URL图，转移矩阵 • 基于查询模板的长尾查询推荐[Szpektoret al., 2011] • 利用外部Ontology语料库，抽取查询模板 • 建立query-template-flow图，计算相关的模板和查询相似度 • 拟合查询推荐方法[Jain et al., 2011] • Query Relax Model去除非关键词，得到 • 为产生候选推荐 • Click-through、Session、Web文档中的短语语料库 • 拟合生成查询推荐稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法基于Term-Query图的随机游走模型 • 构造Term-Query图 • 图 • 结点集合，其中表示词表中单词结点，表示查询日志中所有用户查询结点 • 表示二部图中所有的无向边。对于，和之间存在无向边当且仅当 • 是权重函数 • 边权重函数 • 表示查询q的出现频率稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法 Term-Query图的随机方阵 • 随机转移矩阵 • 表示单词到查询的矩阵 • 表示查询到单词的矩阵 • Term-Query的随机方阵注意：或内部结点之间不存在无向边，因而主对角线用矩阵表示稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法随机游走模型 • 带重启动的随机游走算法 • 对某个单词执行随机游走 • 查询推荐算法 • 对查询每个单词执行随机游走，计算概率分布 • 合并所有单词的概率分布单词到查询的相似度概率分布稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法参数优化 • 单词关联矩阵（Correlation Matrix） • 单词之间的点互信息PMI（Pointwise Mutual Information） • 表示单词和同时出现在同一查询的次数 • 表示查询集合中查询个数 • 查询关联矩阵 • 查询之间的PMI • 表示查询和同时发生在同一会话内的次数 • 表示会话日志中会话的个数 Ground-Truth：单词关联矩阵查询关联矩阵稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法参数优化 • 矩阵分解 • 对所有元素执行随机游走，获得概率分布矩阵分解得：稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法参数优化 • 损失函数（Loss Function） • 对于重启动参数，利用Ground-Truth最小化估计和的损失来优化： • 目标函数：稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法基于查询文档的推荐算法 • 基本思想及系统框架 • 查询文档（Query Document） • 查询的搜索结果内容 • 查询转换为查询文档的形式 • 系统框架稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法查询库QCorpus • 日志清理 • 启发式规则 • 没有URL点击信息的查询 • 非英文查询 • URL类型查询 • 数字类型查询和长关键字查询 • 错拼处理 • Click-through聚类和cluster内分组（非本论文工作） • 选择每个分组中的最高的查询作为代表元 • 建立查询库 • 扩展查询为查询文档 • 标题：查询本身 • 内容：文档摘要（Snippet）或文档全文内容（Full-text）前10个搜索文档稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法 QSearch算法 • 基本思想 • 文本检索方式 • 建立倒排索引 • Term-based倒排索引 • 相似度计算 • 对于查询和文档的相似度，采用BM25衡量 • 参数排序后文档所对应的标题即为查询推荐结果稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法 DSearch算法 • 基本思想 • 将输入查询转换为查询文档，采用查询文档进行搜索相关推荐 • K-NN问题 • 敏感位置哈希LSH • 适用于稠密向量 • TF-IDF向量是非稠密向量 • 基于LDA的文档分解 • LDA变体——SWB模型 • 主题类型单词 • 文档特殊词 • 语料库背景单词 • 文档分解 • 表示k维的文档主题向量 • 表示文档的特殊词集合 k=200 保留前15个特殊词稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法 DSearch算法 • LSH索引：QCorpus所有文档 • 文档主题向量 • 查询推荐算法 • 对于查询扩展为查询文档 • LDA分解的主题向量和特殊词集合 • 相似度计算公式表示和之间的余弦值，表示和对应的TF-IDF向量的余弦值。权重系数，本实验中稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法传统评价指标 • 判断相关性 • 对于查询-推荐对，判断是否相关Relevant/Irrelevant • 不同等级的相关性判断 • Perfectly relevant, Approximately relevant, somewhat relevant, Approximately irrelevant, Perfectly irrelevant • 衡量指标 • Precision/Recall/F-Measure • P@K • Mean Average Precision(MAP) 相关性V.S.有用性稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法优化的评价标准及指标 • 例如，查询“aol instant mess”和它的相应推荐 • =“aol instant messenger” • =“aol aim” • =“windows live messenger” • =“yahoo! messenger” • 如果的查询结果比较差，则和可能更适合；否则，和比较合适稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法优化的评价标准及指标 • 关系分类标定 • 相同意图（same intention） • 普遍化（generalization） • 特殊化（specialization） • 对等关系（peer） • 无关（no association） • 有用性标定（比较搜索结果质量） • 较好（better） • 较差（worse） • 相同（same） 1 2 2 0 2 1 2 0 稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法 Term-Query算法实验分析 • 实验环境搭建 • 数据集：AOL查询日志 • 停用词，PorterStemmer取词根 • 对比算法 • QFG算法：建立query-flow graph，执行随机游走算法（参见[Boldi et al., 2008]） • QBI算法：对查询本身建立倒排索引，计算查询之间的TF-IQF（Term Frequency-Inverse Query Frequency）余弦相似度进行排序稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法 Term-Query算法实验分析 • 实验环境搭建 • User Study • 按照查询频率将查询日志分为4组数据，分别抽样25个惟一查询，共计100个测试查询用例 • 取Term-Query算法（简称RW-TQ）和两个对比算法各自的前5个推荐 • 1068个惟一查询-推荐对 • 判断相关性（Relevant/Irrelevant） • 原始查询与推荐比较包含关键字基本相同，则应被标定Irrelevant • 例如，原始查询“verizon wireless internet”与推荐“wireless internet from verizon” 稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法 Term-Query算法实验分析 • 覆盖率：至少返回一个推荐的查询所占的比率不同测试集合上的覆盖率对比图前5个推荐结果数量在100测试查询的分布图稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法 Term-Query算法实验分析 • 性能对比 • P@K和MAP QFG算法偏向频率高的查询 QBI偏向包含关键词偏多的查询 RW-TQ相对比较稳定（Test-A除外）稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法 Term-Query算法实验分析 • 参数调优稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法查询文档算法实验分析 • 实验环境搭建 • 数据集和查询库QCorpus • 微软Bing查询日志（2010年12月） • 日志清理：18.44M干净查询 • 创建QCorpus • Bing搜索API：前10个文档摘要 • 集合大小：18.35M 抓取失败导致部分查询没有结果稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法查询文档算法实验分析 • 实验环境搭建 • 对比算法：QFG算法+QBI算法 • 评价指标：和 • 测试查询集合 • 判断查询搜索意图是否清晰 • 150流行查询：122个清晰 • 350稀疏查询：271个清晰 • 100个测试查询集合 • 50个来自清晰的122个流行查询 • 50个来自清晰的271个稀疏查询标定有用性稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法查询文档算法实验分析 • 标定结果两种标定标准是描述的查询推荐结果的两个不同方面稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法查询文档算法实验分析 • 覆盖率前10个推荐结果数量在Popular查询集合的分布图前10个推荐结果数量在Rare查询集合的分布图稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法查询文档算法实验分析 • 性能对比（Popular查询）稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法查询文档算法实验分析 • 性能对比（Rare查询）稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法查询文档算法实验分析 • 合并所有基础方法结果 • 去除重复的推荐结果 • 获得候选集合 • 重排序（Re-rank）方法 • QSearch重排序：根据BM25公式，重新对中所有推荐进行计算相似度。 • DSearch重排序：根据DSearch方法的相似度计算公式对候选集合进行全新排序 • TF-IDF重排序：根据查询所对应的查询文档的TF-IDF向量，计算余弦相似度进行排序稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法查询文档算法实验分析 • 重排序（Popular查询）稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法查询文档算法实验分析 • 重排序（Rare查询）稀疏查询的推荐算法与性能评价问题的研究

绪论基于Term-Query图随机游走模型优化评价指标实验结果分析总结展望相关工作基于查询文档的推荐算法总结展望 Term-Query随机游走模型 • 总结 • 未来展望 • NLP来进一步优化Term-Query随机游走模型 • 如何将Click-through等信息应用到查询文档概念上稀疏查询推荐 DSearch算法查询文档算法 QSearch算法有用性标定性能评价优化关系分类标定稀疏查询的推荐算法与性能评价问题的研究

参考文献 • P. Boldi, F. Bonchi, C. Castillo, D. Donato, A. Gionis, and S. Vigna. The query-flow graph: model and applications. In CIKM, pages 609–618. ACM, 2008. • I. Bordino, C. Castillo, D. Donato, and A. Gionis. Query similarity by projecting the query-flow graph. In SIGIR, pages 515–522. ACM, 2010. • S. Bhatia, D. Majumdar, and P. Mitra. Query suggestions in the absence of query logs. In SIGIR, pages 795–804, New York, NY, USA, 2011. ACM. • H. Cao, D. Jiang, J. Pei, Q. He, Z. Liao, E. Chen, and H. Li. Context-aware query suggestion by mining click-through and session data. In KDD, pages 875–883. ACM, 2008. • V. Dang and B. W. Croft. Query reformulation using anchor text. In WSDM, pages 41–50. ACM, 2010. • H. Deng, I. King, and M. R. Lyu. Entropy-biased models for query representation on the click graph. In SIGIR, pages 339–346, 2009. • A. Jain, U. Ozertem, and E. Velipasaoglu. Synthesizing high utility suggestions for rare web search queries. In SIGIR, pages 805–814, New York, NY, USA, 2011. ACM. • B. M. Fonseca, P. B. Golgher, E. S. de Moura, and N. Ziviani. Using association rules to discover search engines related queries. In LA-WEB, pages 66–71. IEEE Computer Society, 2003. 稀疏查询的推荐算法与性能评价问题的研究

参考文献（续） • Q. Mei, D. Zhou, and K. W. Church. Query suggestion using hitting time. In CIKM, pages 469–478. ACM, 2008. • E. Sadikov, J. Madhavan, L. Wang, and A. Halevy. Clustering query refinements by user intent. In WWW, pages 841–850. ACM, 2010. • Y. Song and L. wei He. Optimal rare query suggestion with implicit user feedback. In WWW, pages 901–910. ACM, 2010. • I. Szpektor, A. Gionis, and Y. Maarek. Improving recommendation for long-tail queries via templates. In WWW, pages 47–56, New York, NY, USA, 2011. ACM. 稀疏查询的推荐算法与性能评价问题的研究

发表论文情况 • 已录取论文 • ZhongruiMa, Yu Chen, Ruihua Song, Tetsuya Sakai, Jiaheng Lu and Ji-Rong Wen. New Assessment Criteria for Query Suggestion. In Proceedings of ACM SIGIR (SIGIR'2012), poster, to appear, 2012. • 已投稿论文 • ZhongruiMa, Yu Chen, Ruihua Song, Jiaheng Lu and Ji-Rong Wen. Searching Suggestions for Rare Queries. In Proceedings of ACM CIKM (CIKM’2012), submission, 2012. 稀疏查询的推荐算法与性能评价问题的研究

谢谢各位答辩老师！ 稀疏查询的推荐算法与性能评价问题的研究

稀疏查询的推荐算法与性能评价问题的研究

稀疏查询的推荐算法与性能评价问题的研究

Presentation Transcript