博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
排序模型
阅读量:4601 次
发布时间:2019-06-09

本文共 562 字,大约阅读时间需要 1 分钟。

传统的排序模型主要分为相关性和重要性两大类
相关性:Bool model,VSM,Language model
重要性:PageRank、TrustRank
1.Bool model
Query为逻辑表达式,即“与/或/非”,相似性通过布尔代数运算判定,只有相关于不相关
2.VSM
是一种表示文档的代数模型。文档映射为t维特征向量,每维特征的权重主要有TF-IDF等多个变种。
相似度计算主要是余弦相似度
3.概率检索模型
BM25将Query分解成多个语素,综合考虑每个语素的二元独立模型(与IDF等价)、语素在文档中的权值、语素在Query中的权值,求和。
4.Language model
为每个文档建立不同的语言模型,判断由文档生成Query的可能性有多大,然后按照这种生成概率由高到低排序,作为搜索结果。
数据稀疏问题:很多查询词在文档中没有出现,导致概率为0,检索失效
解决:用背景概率做数据平滑,某个单次的背景概率就是这个单次出现的次数除以文档集合的单次总数
综上,文档生成查询概率的计算公式为每个查询词的文档语言模型+平滑的文档集合语言模型,求积
改进:HMM、相关模型、翻译模型
5.PageRank

 

转载于:https://www.cnblogs.com/jiangu66/p/3188499.html

你可能感兴趣的文章
Metro Style app :浏览器扩展
查看>>
linux的kernel是怎样工作的(TI_DM36X_ARM系统)(1)
查看>>
[luogu4310] 绝世好题 (递推)
查看>>
[luogu3203 HNOI2010] 弹飞绵羊 (分块)
查看>>
-Dmaven.multiModuleProjectDirectory system propery is not set.
查看>>
Python2 unichr() 函数
查看>>
Python 字典 copy()方法
查看>>
Minimum Path Sum
查看>>
Remove Duplicates from Sorted Array II
查看>>
常量指针和指针常量巧妙记忆方法[转]
查看>>
python-haproxy作业讲解视频总结
查看>>
批处理文件脚本总结
查看>>
快速排序C++代码
查看>>
mui搜索框 搜索点击事件
查看>>
bzoj 5289: [Hnoi2018]排列
查看>>
joomla处境堪忧
查看>>
Jquery-AJAX
查看>>
mysql命令gruop by报错this is incompatible with sql_mode=only_full_group_by
查看>>
LeetCode55 Jump Game
查看>>
poj 3764 The xor-longest Path (01 Trie)
查看>>