利用 Milvus 搭建基于图的推荐系统

时间：2020-09-18 10:42:02 来源：作者：

电影推荐系统 demo 界面

推荐系统[1]（Recommender System，RS）能够根据用户的偏好主动为用户推荐商品或项目。它通过用户的历史数据来发掘用户兴趣偏好，从而将用户可能感兴趣的物品推送给用户，一个设计出色的推荐系统能够为企业带来可观的经济效益。一个完整的推荐系统的组成必须包括三个要素：用户模型、推荐对象模型、推荐算法。其中推荐算法是推荐系统的核心。目前，较成熟的推荐算法主要有：基于协同过滤的推荐、隐含语义模型、基于图模型的推荐、组合推荐等。本文将为大家介绍如何利用 Milvus 搭建基于图的推荐系统。

| 主要技术

基于图的卷积神经网络

PinSage

PinSage[2]是由斯坦福和 Pinterest 公司合作提出了第一个工业级别（数十亿节点和数百亿边）基于 GCN（Graph Convolutional Neural，图神经网络）的推荐系算法。用户在 Pinterest 网站中将自己感兴趣的内容（pins）与相关的板块（broads）进行标记，其中包含了 20 亿 pins，10 亿 boards 以及 180 亿边（若 pin 在 broads 中，那么它们之间存在一条边），由此构成的二分图如下图所示：

该算法的目标是利用 pins-broards 二分图结构，生成 pins 的高质量 embeddings 用于推荐任务，如相关 pins 推荐。PinSage 的关键创新点主要有[3]：

动态卷积：传统的 GCN 算法对特征矩阵与全图进行卷积；PinSage 算法对节点周围的邻域进行采样，通过动态构建计算图来执行高效的局部卷积。
采样构造卷积：对节点的全部邻域上执行卷积会导致庞大的计算图，因此需要借助采样减小计算量。传统的 GCN 算法检查 K-hop 图邻域；而 PinSage 通过模拟随机游走将访问量最高的设为重要邻域，并基于此构造卷积。
高效 MapReduce：对于局部卷积的节点通常有重复计算的问题，这是由于节点的 K-hop 邻域之间的重叠引起的。PinSage 对每个聚合步骤，将所有节点做映射而无需重复的计算，然后将其连接并发送至相应上层节点，最后进行归约以获取上层节点的 embeddings。

DGL

Deep Graph Library（DGL）[4]是一个 Python 软件包，用于在现有深度学习框架（例如 PyTorch，MXNet，TensorFlow 等）之上轻松搭建图神经网络模型。它提供了后端适配接口，可轻松移植到其他基于张量、支持自动生成的框架。本文的 PinSage 算法就是基于 DGL 和 Pytorch 对部分算法做了改进。详见https://github.com/dmlc/dgl/tree/master/examples/pytorch/pinsage

Milvus 向量相似度搜索引擎

前面介绍了基于 DGL 运用 PinSage 模型可以轻松获取高质量的 embeddings，那么接下来就需要对 embeddings 做相似度搜索，从而找出用户可能感兴趣的项目推荐给用户。Milvus[5]是一款开源向量相似度搜索引擎，支持使用多种 AI 模型将非结构化数据向量化，并为向量数据提供搜索分析服务，可广泛应用于图像处理、机器视觉、自然语言处理、语音识别、推荐系统以及新药发现。具体实现方式是：

通过深度学习模型将非结构化数据转化为特征向量，并导入 Milvus 库。
对特征向量进行存储并建立索引。
接收到用户的向量搜索请求后，返回与输入向量相似的结果。

| 系统搭建

系统介绍

接下来将介绍如何利用 Milvus 搭建基于图的推荐系统，如下图所示，系统主要包含数据预处理、PinSage 模型、数据加载、查询和系统推荐：

1. 数据预处理

本文搭建的推荐系统使用开放的 MovieLens[5]百万数据集（ml-1m），包含 6,000 位用户对 4,000 部电影的 1,000,000 条评价，由 GroupLens Research 实验室搜集整理。原始数据中包含电影的数据信息，用户特征信息，以及用户对电影的评分。本文利用 MovieLens 数据集中用户看过的电影记录来构建一个具有分类特征的结构图：users-movies 二分图 g。

# Build graph
graph_builder = PandasGraphBuilder()
graph_builder.add_entities(users, 'user_id', 'user')
graph_builder.add_entities(movies_categorical, 'movie_id', 'movie')
graph_builder.add_binary_relations(ratings, 'user_id', 'movie_id', 'watched')
graph_builder.add_binary_relations(ratings, 'movie_id', 'user_id', 'watched-by')
g = graph_builder.build()

2. PinSage 模型处理

利用 PinSage 模型获取 pins 的 embeddings，本文主要是获取电影数据的特征向量。首先根据构建的二分图 g 和自定义的电影特征向量维度（默认 256 维）生成 PinSage 模型，再利用 PyTorch 训练该模型，然后通过训练好的模型生成 4000 条电影数据的特征向量 h_item。

# Define the model
model = PinSAGEModel(g, item_ntype, textset, args.hidden_dims, args.num_layers).to(device)
opt = torch.optim.Adam(model.parameters(), lr=args.lr)
# Get the item embeddings
for blocks in dataloader_test:
 for i in range(len(blocks)):
 blocks[i] = blocks[i].to(device)
 h_item_batches.Append(model.get_repr(blocks))
h_item = torch.cat(h_item_batches, 0)

3. 数据加载

将 PinSage 模型生成的电影特征向量 h_item 导入 Milvus 并返回对应的 ID；将电影的 ID 和对应的电影数据信息导入 MySQL 结构化数据库。

# Load data to Milvus and MySQL
status, ids = milvus.insert(milvus_table, h_item)
load_movies_to_mysql(milvus_table, ids_info)

4. 查询

根据用户偏好的电影 ID 在 Milvus 中获取对应的特征向量（ embeddings ），然后利用返回的特征向量在 Milvus 中进行相似度检索，根据返回的相似结果 ID 在 MySQL 数据库中查找对应的电影信息。

# Get embeddings that users like
_, user_like_vectors = milvus.get_entity_by_id(milvus_table, ids)# Get the information with similar movies_, ids = milvus.search(param = {milvus_table, user_like_vectors, top_k})sql = "select * from " + movies_table + " where milvus_id=" + ids + ";"
results = cursor.execute(sql).fetchall()

5. 系统推荐

最终，根据查询的结果为用户提供相似电影的推荐。综上就是推荐系统的主要流程，具体搭建步骤参考 Milvus-Bootcamp：https://github.com/milvus-io/bootcamp/tree/0.10.0/solutions/graph_based_recommend

| 系统展示

该项目也提供了 FastAPI 接口和前端展示，通过模拟用户登录电影视频 APP 并勾选自己喜欢的电影，从而推荐用户可能感兴趣的电影。

| 总结

基于图的卷积神经网络 PinSage 通过 pins-broards 二分图结构生成 pins 的高质量 embeddings 用于推荐任务。而本文利用 MovieLens 数据集构建 users-movies 二分图，再利用 DGL 开源包结合 PinSage 模型生成电影的特征向量，再将此特征向量加载至 Milvus 特征向量相似度搜索引擎，之后根据用户偏好在 Milvus 中检索，得出相似的特征向量以实现向用户推荐电影的功能。

本文使用的 Milvus 特征向量相似度搜索引擎可以对接各种深度学习平台，并运用于众多 AI 领域。Milvus 充分利用现代处理器的并行计算能力，可以在单台通用服务器上完成对十亿级数据的毫秒级搜索，助力用户高效完成非结构化数据检索。

参考资料

https://patentimages.storage.googleapis.com/0e/96/31/98058cb476cd77/CN105913296A.pdf
Graph Convolutional Neural Networks for Web-Scale Recommender Systems, arxiv: 1806.01973
https://medium.com/pinterest-engineering/pinsage-a-new-graph-convolutional-neural-network-for-web-scale-recommender-systems-88795a107f48
https://docs.dgl.ai/en/latest/
http://files.grouplens.org/datasets/movielens/ml-1m.zip

Tags：推荐系统点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

5年迭代5次，抖音推荐系统演进历程

2021 年，字节跳动旗下产品总 MAU 已超过 19 亿。在以抖音、今日头条、西瓜视频等为代表的产品业务背景下，强大的推荐系统显得尤为重要。Flink 提供了非常强大的 SQL 模块和有状态计算模块。目前在字节推荐场景，实时简单...【详细内容】

2021-10-25　　Tags: 推荐系统点击:(29)　　评论:(0)　　加入收藏

推荐一个国人开源的推荐系统

今天，要和大家推荐一个Go 编写的开源推荐系统——Gorse。 Gorse 旨在成为一个通用的开源推荐系统，可以快速引入各种在线服务。通过将商品、用户和交互数据导入 Gors...【详细内容】

2021-08-02　　Tags: 推荐系统点击:(104)　　评论:(0)　　加入收藏

推荐系统概述和主流模型介绍

Hello，大家好，欢迎来到“自由技艺”的知识小馆，今天我们来聊一聊推荐算法。在广告、电商、信息流分发等业务场景中，推荐算法发挥着至关重要的作用，好的推荐算法能够把用户牢牢抓...【详细内容】

2021-06-08　　Tags: 推荐系统点击:(135)　　评论:(0)　　加入收藏

从零搭建推荐系统—算法篇

推荐系统自诞生之日起就是为解决海量物料如何高效分发给海量用户，一套高效的算法流程就是推荐系统的核心。如今火热的各类机器学习、深度学习、强化学习等都可以在推荐系统中...【详细内容】

2021-04-27　　Tags: 推荐系统点击:(250)　　评论:(0)　　加入收藏

推荐系统提供web服务的2种方式

推荐系统是一种信息过滤技术，通过从用户行为中挖掘用户兴趣偏好，为用户提供个性化的信息，减少用户的找寻时间，降低用户的决策成本，让用户更加被动地消费信息。推荐系统是随着互...【详细内容】

2021-04-09　　Tags: 推荐系统点击:(319)　　评论:(0)　　加入收藏

小白也能看懂！了解推荐系统全貌，看这篇就够了

有幸参与了几个业务推荐系统搭建的全流程，本文将从实际经验出发，为大家解构如何从从零搭建推荐系统，希望跟大家能够相互交流，如有错误之处烦请指正。...【详细内容】

2020-09-30　　Tags: 推荐系统点击:(67)　　评论:(0)　　加入收藏

利用 Milvus 搭建基于图的推荐系统

电影推荐系统 demo 界面推荐系统[1]（Recommender System，RS）能够根据用户的偏好主动为用户推荐商品或项目。它通过用户的历史数据来发掘用户兴趣偏好，从而将用户可能感兴趣的物...【详细内容】

2020-09-18　　Tags: 推荐系统点击:(127)　　评论:(0)　　加入收藏

实时推荐系统的3种方式

推荐系统介绍自从1992年施乐的科学家为了解决信息负载的问题，第一次提出协同过滤算法，个性化推荐已经经过了二十几年的发展。1998年，林登和他的同事申请了“item-to-item”协同...【详细内容】

2020-09-15　　Tags: 推荐系统点击:(177)　　评论:(0)　　加入收藏

推荐系统架构治理

在数字化革命和AI赋能的大背景下，推荐场景逻辑越来越复杂，推荐细分场景越来越丰富，对业务迭代和效果优化的效率有了更高的要求。推荐系统业务和技术在传统架构支撑下自然堆砌，变...【详细内容】

2020-09-07　　Tags: 推荐系统点击:(85)　　评论:(0)　　加入收藏

新闻个性化推荐系统源码之构建离线用户画像

用户画像往往是大型网站的重要模块，基于用户画像不仅可以实现个性化推荐，还可以实现用户分群、精准推送、精准营销以及用户行为预测、商业化转化分析等，为商业决策提供数据支持...【详细内容】

2020-09-02　　Tags: 推荐系统点击:(121)　　评论:(0)　　加入收藏

▌简易百科推荐

可解释的AI (XAI)：如何使用LIME 和 SHAP更好地解释模型的预测

作为数据科学家或机器学习从业者，将可解释性集成到机器学习模型中可以帮助决策者和其他利益相关者有更多的可见性并可以让他们理解模型输出决策的解释。在本文中，我将介绍两个...【详细内容】

2021-12-17　　deephub　　　　Tags:AI 　点击:(15)　　评论:(0)　　加入收藏

AI系统中（机器学习算法）导致偏差的原因总结

基于算法的业务或者说AI的应用在这几年发展得很快。但是，在实际应用的场景中，我们经常会遇到一些非常奇怪的偏差现象。例如，Facebook将黑人标记为灵长类动物、城市图像识别系统...【详细内容】

2021-11-08　　数据学习DataLearner　　　　Tags:机器学习　点击:(32)　　评论:(0)　　加入收藏

人工智能会超过人类吗？顶尖科学家：人工智能在常识判断方面具有局限

11月2日召开的世界顶尖科学家数字未来论坛上，2013年诺贝尔化学奖得主迈克尔·莱维特、2014年诺贝尔生理学或医学奖得主爱德华·莫索尔、2007年图灵奖得主约瑟夫·斯发斯基、1986年图灵奖得主约翰·霍普克罗夫特、2002...【详细内容】

2021-11-03　　张淑贤　　证券时报　　Tags:人工智能　点击:(39)　　评论:(0)　　加入收藏

火爆业界的边缘计算，到底是什么？

鉴于物联网设备广泛部署、5G快速无线技术闪亮登场，把计算、存储和分析放在靠近数据生成的地方来处理，让边缘计算有了用武之地。边缘计算正在改变全球数百万个设备处理和传输...【详细内容】

2021-10-26　　　　计算机世界　　Tags:边缘计算　点击:(45)　　评论:(0)　　加入收藏

这725个机器学习术语表，太全了

这是几位机器学习权威专家汇总的725个机器学习术语表，非常全面了，值得收藏！英文术语中文翻译 0-1 Loss Function 0-1损失函数 Accept-Reject Samplin...【详细内容】

2021-10-21　　Python部落　　　　Tags:机器学习　点击:(43)　　评论:(0)　　加入收藏

程序员10 个入门级的机器学习开源项目

要开始为开源项目做贡献，有一些先决条件：1. 学习一门编程语言：由于在开源贡献中你需要编写代码才能参与开发，你需要学习任意一门编程语言。根据项目的需要，在后期学习另一种语言...【详细内容】

2021-10-20　　TSINGSEE青犀视频　　　　Tags:机器学习　点击:(37)　　评论:(0)　　加入收藏

Logistic Regression：最基础的神经网络

SimpleAI.人工智能、机器学习、深度学习还是遥不可及？来这里看看吧~ 从基本的概念、原理、公式，到用生动形象的例子去理解，到动手做实验去感知，到著名案例的学习，到用所学来实现...【详细内容】

2021-10-19　　憨昊昊　　　　Tags:神经网络　点击:(47)　　评论:(0)　　加入收藏

直击痛点 NLP技术的价值和落地｜超级观点

语言是人类思维的基础，当计算机具备了处理自然语言的能力，才具有真正智能的想象。自然语言处理（Natural Language Processing, NLP）作为人工智能（Artificial Intelligence, AI）的核心技术之一，是用计算机来处理、理解以及运...【详细内容】

2021-10-11　　　　36氪　　Tags:NLP 　点击:(48)　　评论:(0)　　加入收藏

边缘计算是个啥？为什么说发展5G离不开它？

边缘计算是什么？近年来，物联网设备数量呈线性增长趋势。根据艾瑞测算， 2020年，中国物联网设备的数量达74亿，预计2025年突破150亿个。同时，设备本身也变得越来越智能化，AI与互联网在...【详细内容】

2021-09-22　　汉智兴科技　　　　Tags: 　点击:(54)　　评论:(0)　　加入收藏

学了这些基础算法，人工智能就算入门了

说起人工智能，大家总把它和科幻电影中的机器人联系起来，而实际上这些科幻场景与现如今的人工智能没什么太大关系。人工智能确实跟人类大脑很相似，但它们的显著差异在于人工智能...【详细内容】

2021-09-17　　异步社区　　　　Tags:人工智能　点击:(57)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为