下面可以乘凉的不一定是大树,但大树底下一定是可以乘凉的。
RSS icon
  • 

    几种用户相似度计算方法及其优缺点

    发表于 四月 10th, 2009 大树 4 人乘凉

    注:我毕设要做一个垂直搜索引擎中的用户推荐项目,这些是我摘录的一些资料和相关分析。

        进行用户协同过滤时,一个关键问题是如何计算用户之间的相似性。比较常见的计算用户相似度的算法有余弦相似性、皮尔森系数、调整余弦相似性三种。

        这三种相似性都是基于一个称为用户-项目矩阵的数据结构来进行计算的。该数据结构如下:
       

        余弦相似性:把用户评分看作是n维项目空间上的向量,通过计算两个向量之间的夹角余弦来度量两个用户之间的相似性。

        皮尔森系数:又称相关相似性,通过Peason相关系数来度量两个用户的相似性。计算时,首先找到两个用户共同评分过的项目集,然后计算这两个向量的相关系数。
        调整余弦相似性:将余弦相似性中的向量,减去用户平均评分向量后,再计算夹角余弦以修正不同用户评分尺度不同的问题。

        在数据比较稀疏的情况下,这几种方法均存在一定问题:余弦相似性和调整余弦相似性对于用户未评价项目评分为0的假设;皮尔森系数中用户共同评分项目集可能很小。

        在垂直搜索引擎中,用户数据具有相当的稀疏性。所以需要通过一定的手段来消除这种稀疏性。我的思路:
        1.垂直搜索中存在一个项目的目录(树形结构),如果自顶向下进行评分,并将子项目分数与父项目分数按一定规则运算后作为最后评分。从而填充稀疏矩阵为密集矩阵。
        2.按照密集矩阵进行推荐。

       

        欢迎访问我的独立博客:大树底下

    您来到小站很多次了哦,喜欢的话,不妨订阅我吧·!

    
     

    4 responses to “几种用户相似度计算方法及其优缺点” RSS icon


    乘凉说话