Python 皮尔森相似度
在数据挖掘领域,相似度有着非常重要的作用。而皮尔森相似度是其中一种广泛运用的相似度计算方法。
皮尔森相似度的计算公式如下:
def pearson_sim(x, y): n = len(x) sum_x = sum(x) sum_y = sum(y) sum_xy = sum([x[i] * y[i] for i in range(n)]) sum_x2 = sum([x[i] ** 2 for i in range(n)]) sum_y2 = sum([y[i] ** 2 for i in range(n)]) numerator = sum_xy - (sum_x * sum_y / n) denominator = ((sum_x2 - sum_x ** 2 / n) * (sum_y2 - sum_y ** 2 / n)) ** 0.5 return numerator / denominator if denominator != 0 else 0
其中,x和y都是一维向量。
总的来说,皮尔森相似度的计算方法非常简单,通过比较样本之间的相关性来计算相似度。它广泛运用于推荐系统、数据可视化等领域。
本文可能转载于网络公开资源,如果侵犯您的权益,请联系我们删除。
0