当前位置：首页 > 编程笔记 > 正文

已解决

基于Jaccard相似度的推荐算法---示例

来自网友在路上 173873提问提问时间：2023-11-11 15:23:41阅读次数： 73

最佳答案问答题库738位专家为你答疑解惑

数据展示

import pandas as pd
import numpy as np# 读取CSV文件
data = pd.read_csv('E:/recommended_s/Books.csv',header=None,names=['用户id','书籍id','rating' ,'timestamp'])[:10000]
print(data.head(10))

在这里插入图片描述

Jaccard相似度

Jaccard相似度是一种用于比较两个集合相似程度的度量方法。它通过计算两个集合的交集元素数量与并集元素数量的比值来衡量它们的相似性。
具体地，给定两个集合A和B，Jaccard相似度可以通过以下公式计算：J(A, B) = |A ∩ B| / |A ∪ B|，其中，|A ∩ B|表示集合A和B的交集元素数量，|A ∪ B|表示集合A和B的并集元素数量。
Jaccard相似度的取值范围在0到1之间，数值越接近1表示两个集合越相似，数值越接近0表示两个集合越不相似。

分析数据的特点

低维，对于产品只有书籍id，没有关于书籍的其他内容，比如内容，属性等等。【当然也可以将书籍id进行拆解，但是因为时间原因并没有细化】
存在一对一和一对100的情况，每个用户所看过的书籍数目不同且有较大差异。

可以考虑的方法

基于用户的协同过滤推荐算法：由于数据中包含了用户对不同物品的评分记录，可以基于用户之间的评分行为相似性来进行推荐。通过计算用户之间的相似度，找到与目标用户兴趣相似的其他用户，然后根据这些用户的评分记录，推荐给目标用户可能感兴趣的物品。
基于内容的推荐算法：数据中的物品ID可以用于表示物品的内容特征，如关键词、标签等。可以根据物品之间的内容相似性来进行推荐。通过计算物品之间的相似度，找到与目标物品相似的其他物品，然后推荐给用户。
基于时间的推荐算法：数据中的时间戳可以用于表示用户对物品的评分时间。可以根据时间的先后顺序，推荐最近或最热门的物品给用户。例如，可以推荐用户最近一段时间内热门的物品，或者根据用户的历史评分记录，预测用户未来可能感兴趣的物品。

计算方法优缺点

简单直观：Jaccard相似度的计算方法简单明了，易于理解和实现。【选择该算法的主要原因】
不受数据规模影响：Jaccard相似度只关注集合的共同元素数量，而不考虑集合的大小，因此不受数据规模的影响。
适用于稀疏数据：对于稀疏的用户-物品矩阵，Jaccard相似度可以有效地衡量用户之间的喜好相似度。
但，Jaccard相似度只考虑了集合的共同元素，而没有考虑元素之间的权重差异。

计算用户之间的Jaccard相似度

# 计算用户之间的Jaccard相似度
def Jaccard_similarity(user_id, data):user_data = data[data['用户id'] == user_id]other_users = data[data['用户id'] != user_id]# print(user_data)# print(other_users['用户id'])other_users_ids=list(set(other_users['用户id']))# print(other_users_ids)user_books = set(user_data['书籍id'])other_users_books = other_users.groupby('用户id')['书籍id'].apply(set).tolist()# print("###")# print(user_books)# print(other_users_books)i=0similarities = []for other_user_book in other_users_books:intersection = user_books.intersection(other_user_book)union = user_books.union(other_user_book)#print(len(intersection))Jaccard = float(len(intersection)) / (len(union) + 1e-8)user_id = other_users_ids[i]i=i+1# if(Jaccard != 0):# print(Jaccard)similarities.append((user_id, Jaccard))return similarities

获取与给定最相似的10个用户

def get_similar_users(user_id, data, top_n=10):similar_users = Jaccard_similarity(user_id, data)# 根据相似度对similar_users列表进行降序排序，找到最相似的用户similar_users.sort(key=lambda x: x[1], reverse=True)# print(similar_users)# 获取给定用户已经看过的书籍ID，并将其存储在user_books集合中user_books = set(data[data['用户id'] == user_id]['书籍id'])# print("%%%")# print(user_books)# 创建一个空列表，用于存储推荐的书籍IDrecommended_books = []# 遍历与给定用户最相似的前top_n个用户for other_user, _ in similar_users[:top_n]:# 获取当前相似用户喜欢的书籍ID，并将其存储在other_user_books集合中other_user_books = set(data[data['用户id'] == other_user]['书籍id'])# print(data[data['用户id'] == other_user])# 使用列表推导式，从相似用户喜欢的书籍中筛选出给定用户没有看过的书籍，将筛选出的书籍ID添加到recommended_books列表中recommended_books.extend([book for book in other_user_books if book not in user_books])# 返回前10个推荐的书籍ID列表return recommended_books[:10]

对1713353的用户推荐10本书

# 对于用户id为1713353的用户，推荐10本书
user_id = '1713353'
recommended_books = get_similar_users(user_id, data)
# 输出推荐的书
for book in recommended_books:print(book)

在这里插入图片描述

查看全文

99%的人还看了

相似问题

猜你感兴趣

版权申明

本文"基于Jaccard相似度的推荐算法---示例"：http://eshow365.cn/6-37722-0.html 内容来自互联网，请自行判断内容的正确性。如有侵权请联系我们，立即删除！

上一篇: 系统架构主题之九：软件设计模式及其应用
下一篇: 【算法与数据结构】93、LeetCode复原 IP 地址

晴海小常识分享

晴海小常识分享

基于Jaccard相似度的推荐算法---示例

最佳答案问答题库738位专家为你答疑解惑

目录

数据展示

推荐算法的分类

基于相似度

基于流行度/上下文/社交网络

Jaccard相似度

分析数据的特点

可以考虑的方法

计算方法优缺点

计算用户之间的Jaccard相似度

获取与给定最相似的10个用户

对1713353的用户推荐10本书

99%的人还看了

相似问题

猜你感兴趣

版权申明

推荐回答

晴海小常识分享

晴海小常识分享

基于Jaccard相似度的推荐算法---示例

最佳答案 问答题库738位专家为你答疑解惑

目录

数据展示

推荐算法的分类

基于相似度

基于流行度/上下文/社交网络

Jaccard相似度

分析数据的特点

可以考虑的方法

计算方法优缺点

计算用户之间的Jaccard相似度

获取与给定最相似的10个用户

对1713353的用户推荐10本书

99%的人还看了

相似问题

猜你感兴趣

版权申明

推荐回答

最佳答案问答题库738位专家为你答疑解惑