请教数学或算法大拿一个文章相关度和质量评分以及归一化的算法问题

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 4623 days ago, the information mentioned may be changed or developed.

已经有的数据：

给定关键字有一个算法，计算出一片文章与关键字的相关度 n（n>=0，几百或几千），若干篇文章的相关度基本为正态分布，一篇文章相关度没有一个上线值

根据一定算法获得文章的质量0～m（m>=0，几百或几千），若干篇文章的质量分布也基本为正态分布，一篇文章质量分没有上线

问题：

1 如何将相关度、质量评分归一化到一个统一的范围（如0～1000），文章的分布对归一化应该如何影响一直想不明白

2 相关度、质量数据如何整合为一个合理的评分

相关度

文章

归一化

8 replies • 2014-09-22 17:08:39 +08:00

superhack

Oct 10, 2013

威尔逊置信区间？

echoflying

Oct 11, 2013

谢谢superhack同学。

找了几条参考资料，放在这里备忘：

统计中的置信和惩罚 http://www.zhizhihu.com/html/y2013/4151.html

基于用户投票的排名算法（五）：威尔逊区间http://www.ruanyifeng.com/blog/2012/03/ranking_algorithm_wilson_score_interval.html

echoflying

Oct 11, 2013

再加一条：

How to rank products based on user input
http://masanjin.net/blog/how-to-rank-products-based-on-user-input

echoflying

Oct 11, 2013

研究数学的时间到了：

统计数据归一化与标准化
http://blog.csdn.net/ding89629/article/details/7410191

echoflying

Oct 11, 2013

网站内容评分模型：
http://webdataanalysis.net/web-quantitative-analysis/content-scoring-model/

echoflying

Oct 11, 2013

百分等级是另外一个有趣的概念：

http://wenku.baidu.com/view/e7ae720f52ea551810a687b4.html

echoflying

Oct 11, 2013

关于Z-score和百分等级，这篇比较直白（请剔除中间关于教育XXXX的内容）

http://baike.baidu.com/view/85419.htm

echoflying

Sep 22, 2014

补两篇相关的文章备查：

Reddit 的排名算法原理
http://www.oschina.net/translate/how-reddit-ranking-algorithms-work

How Hacker News ranking algorithm works （看评分如何根据时间老化）
http://amix.dk/blog/post/19574