几种用户相似度计算方法及其优缺点

注:我毕设要做一个垂直搜索引擎中的用户推荐项目,这些是我摘录的一些资料和相关分析。

    进行用户协同过滤时,一个关键问题是如何计算用户之间的相似性。比较常见的计算用户相似度的算法有余弦相似性、皮尔森系数、调整余弦相似性三种。

    这三种相似性都是基于一个称为用户-项目矩阵的数据结构来进行计算的。该数据结构如下:
   

    余弦相似性:把用户评分看作是n维项目空间上的向量,通过计算两个向量之间的夹角余弦来度量两个用户之间的相似性。

    皮尔森系数:又称相关相似性,通过Peason相关系数来度量两个用户的相似性。计算时,首先找到两个用户共同评分过的项目集,然后计算这两个向量的相关系数。
    调整余弦相似性:将余弦相似性中的向量,减去用户平均评分向量后,再计算夹角余弦以修正不同用户评分尺度不同的问题。

    在数据比较稀疏的情况下,这几种方法均存在一定问题:余弦相似性和调整余弦相似性对于用户未评价项目评分为0的假设;皮尔森系数中用户共同评分项目集可能很小。

    在垂直搜索引擎中,用户数据具有相当的稀疏性。所以需要通过一定的手段来消除这种稀疏性。我的思路:
    1.垂直搜索中存在一个项目的目录(树形结构),如果自顶向下进行评分,并将子项目分数与父项目分数按一定规则运算后作为最后评分。从而填充稀疏矩阵为密集矩阵。
    2.按照密集矩阵进行推荐。

   

    欢迎访问我的独立博客:大树底下

相关文章:

  1. 新闻:GAE开始支持Java了     4月7日,Google宣布其Google App Engine支持Java语言。此次升级支持原有的所有GAE API,且与Java Servlet API, JDO and JPA, javax.cache, and javax.mail兼容。与此同时,Google还提供了GAE的Eclipse插件。     此前Google App Engine只支持Python。     详情可见这里:Seriously this...
  2. 本博客取消nofollow标签     即日起本博客将取消nofollow标签,欢迎各位访客留言。     释义:nofollow     nofollow是网页中的一个标签,最初,nofollow 属性出现在网页级元标记中,指示搜索引擎不要追踪(即抓取)该网页上的所有外向链接。 例如:<meta name="robots" content="nofollow" />。这个语句将nofollow该网页的所有链接。     后来,Google将这一标签属性单独提出,加于独立链接之上,例如: <a href=http://www.chensj.cn rel="nofollow">大树底下</a>,则表示告诉搜索引擎“不要追踪此网页上的链接”或“不要追踪此(SEO研究院)特定链接”。Google不会追踪带Nofollow的链接,这些链接中的PageRank 或定位文字不会被Google传送。     很多人,包括笔者,都认为nofollow标签对留言者是不公平的,因此,即日起本博客将取消此标签,只要是言之有物的留言,本博客都将永久保留。...
  3. 从迅雷的离线下载服务说开去 很早就知道迅雷有了vip会员业务,但是一直没有什么特别大的动作,会员所拥有的不过是一些去除广告、个性昵称、定制界面等华而不实的特权,没有什 么吸引力。今天看到迅雷悄然推出了vip会员的离线下载服务,看来迅雷终于开始在vip业务上下本钱了。这也意味着迅雷在将用户转化为收入的道路上迈进了 一大步。 作为一个拥有1.2亿用户的产品,迅雷可以教给我们一些把握用户的智慧: 抓住用户最迫切需要的功能开拓市场。 “不择手段”占领市场。 及时推出周边产品,巩固用户群。 跟进用户需求,保持市场领先 同时,我们也可以窥测一些互联网未来的趋势: 免费时代将最终成为过去 功能差异化将越来越重要 新兴产业被垄断的速度越来越快 单纯技术领先型创业将越来越困难 以上纯属个人见解,欢迎砸砖,以及任何形式的交流讨论。 大树底下。继续阅读 »...
  4. The 200th 这是本博客的第200篇日志。距离大树底下博文过百已经过去了将近一年。 我本以为,这一次不会再有刚过百时那种激动和喜悦,但当日志更新到第197篇的时候,我的心里居然开始忐忑,有一种难明的情绪在心里,不是波涛汹涌,但也难以抑制。我想,可能不是因为博客本身,而是因为大树底下见证了过去一年的生活。继续阅读 »...
  5. 如何设计出色的ppt 无论你是学生、领导,还是自助团体,或者是薪水达6位数的企业高管,不管你喜欢与否,从你打开Powerpoint或Keynote(苹果的演示工具)的那一刻起,你就成为了一名设计师。如何培养出色的演示设计技巧?如果你还没得到建议的话,学学下面的十项技巧看看。继续阅读 »...

发表评论?

4 条评论。

  1. 您好,能加你QQ不,用户相似度问题咨询,我的QQ是332165419,谢谢

  2. 用户相似度问题咨询

    我的qq是21156367,谢谢了

  3. 用户相似度问题咨询

    你好,能加我qq么?想向你求教一下。

发表评论

无觅相关文章插件,快速提升流量