嵌入和矢量数据库实操指南

时间：2023-12-28 15:20:36 来源：51CTO 作者：

译者 | 布加迪

审校 | 重楼

这场革命的核心是矢量数据库概念，这一突破性发展正在重塑我们处理复杂数据的方式。与传统的关系数据库不同，这种数据库具有管理和处理高维矢量数据的独特功能，这种数据是许多AI 和机器学习应用所固有的。随着我们更深入研究先进AI时代，矢量数据库正在成为一种关键的工具，在处理生成式AI模型生成的庞大复杂的数据集方面提供了无与伦比的效率和准确性。

本文旨在探索矢量数据库在生成式AI界的关键作用，着重介绍其功能、工作方式、用例和实操教程。

矢量数据库的定义

矢量数据库是一种用于存储、索引和检索多维数据点的数据库，这些多维通常称为矢量。不同于数据库处理表中组织的数据（如数字和字符串），矢量数据库是专门为管理多维矢量空间中表示的数据而设计的。这使得它们非常适合AI和机器学习应用，这类应用中的数据通常采用矢量的形式，比如图像嵌入、文本嵌入或其他类型的特征矢量。

这些数据库利用索引和搜索算法进行相似性搜索，使它们能够快速识别数据集中最相似的矢量。这种功能对于推荐系统、图像和语音识别以及自然语言处理等任务至关重要，因为有效地理解和处理高维数据起着至关重要的作用。因此，矢量数据库代表了数据库技术的进步，可以满足严重依赖大量数据的AI应用的需求。

矢量嵌入

嵌入和矢量数据库实操指南

我们谈论矢量数据库时，一定要知道什么是矢量嵌入——数据最终如何存储在矢量数据库中。矢量嵌入充当数字代码，封装了对象（比如音乐流媒体应用程序中的歌曲）的关键特征。通过分析和提取关键特征（比如节奏和流派），每首歌曲通过嵌入模型转换成矢量嵌入。

这个过程确保具有相似属性的歌曲具有相似的矢量代码。矢量数据库存储这些嵌入，并在查询时比较这些矢量，以查找和推荐匹配特征最接近的歌曲，有助于为用户提供高效、相关的搜索体验。

矢量数据库的工作原理

嵌入和矢量数据库实操指南

执行用户查询时，涉及各种类型的原始数据，包括图像、文档、视频和音频。所有这些数据可能是非结构化数据，也可能是结构化数据，先通过嵌入模型进行处理。该模型通常是一个复杂的神经网络，将数据转换成高维数值矢量，并有效地将数据的特征编码成矢量嵌入，然后将其存储到SingleStoreDB之类的矢量数据库中。

需要检索时，矢量数据库执行操作（比如相似性搜索），以查找和检索与查询最相似的矢量，从而有效地处理复杂的查询，并向用户提供相关的结果。这整个过程支持在需要高速搜索和检索功能的应用中快速准确地管理大量不同类型的数据。

矢量数据库与传统数据库有何不同？

不妨探讨一下矢量数据库与传统数据库之间的区别。

嵌入和矢量数据库实操指南

矢量数据库在数据组织和检索方法上与传统数据库大不相同。传统数据库的结构是处理离散的标量数据类型，比如数字和字符串，将它们组织成行和列。

这种结构对于事务性数据来说很理想，但对于AI和机器学习中通常使用的复杂高维数据来说效率较低。相比之下，矢量数据库旨在存储和管理矢量数据——即代表多维空间中点的数字数组。

这使得它们天生就适合于涉及相似性搜索的任务，其目标是在高维空间中找到最接近的数据点，这是图像和语音识别、推荐系统和自然语言处理等AI应用的一个常见要求。通过利用为高维矢量空间优化的索引和搜索算法，矢量数据库提供了一种更高效、更有效的方法来处理在先进AI和机器学习时代下日益盛行的那种数据。

矢量数据库的用例

矢量数据库在企业推荐系统中起着至关重要的作用。比如说，它们可以根据用户的浏览或购买行为向用户推荐商品。即使在欺诈检测系统中也大放异彩，它们可以通过比较交易嵌入与欺诈活动的已知概况来检测异常模式，从而实现实时欺诈检测。人脸识别是另外的用例，其中矢量数据库存储脸部特征嵌入，有助于安全地实施监视。

它们甚至可以通过使用预先确定的或不同的答复来响应类似的查询，从而帮助组织做好客户支持。市场研究是矢量数据库擅长的另一个领域，它通过分析客户反馈和社交媒体帖子，将它们转换成文本嵌入来分析情绪和发现趋势，从而获得更强大的商业洞察力。

SingleStoreDB作为矢量数据库

SingleStoreDB强大的矢量数据库功能可以顺畅地服务于AI驱动的应用、聊天机器人和图像识别系统等。有了SingleStoreDB，就不需要为矢量密集型工作负载维护专用的矢量数据库了。

嵌入和矢量数据库实操指南

与传统的矢量数据库方法不同，SingleStoreDB采用了一种新颖的方法，将矢量数据与不同类型的数据类型一起放在关系表中。这种创新的合并使您能够轻松地访问与矢量数据相关的全面的元数据和额外属性，同时利用SQL广泛的查询功能。

SingleStoreDB采用可扩展的框架精心构建，确保始终支持快速增长的数据需求。告别限制，拥抱随数据需求而进化的解决方案。

使用SingleStoreDB的矢量数据库教程

先决条件

注册免费的SingleStoreDB Cloud试用版。我们将使用SingleStore作为矢量数据库。
创建嵌入的Postman帐户。
获取OpenAI API密钥的OpenAI帐户。

一旦您登录到OpenAI帐户，进入到这里所示的API选项卡。

嵌入和矢量数据库实操指南

接下来，转到嵌入选项卡。

嵌入和矢量数据库实操指南

我们将从嵌入的API请求开始入手。为此，我们需要进入到API References页面。进入到API References页面下的“嵌入”选项卡，查看如何创建嵌入。

嵌入和矢量数据库实操指南

现在，不妨为嵌入创建API请求。为此，我们需要像Postman这样的工具。您可以注册，并在Postman帐户中创建一个工作区。

嵌入和矢量数据库实操指南

现在，获取我们的API URL ' https://api.openai.com/v1/embeddings '，并将其粘贴到Postman URL部分中，使用OpenAI API密钥对其进行授权。

嵌入和矢量数据库实操指南

是时候创建我们的第一个嵌入了。我们只需要一个模型和输入参数，如OpenAI文档页面所示。

嵌入和矢量数据库实操指南

对于该模型，我们将使用“text-embedding-ada-002”和任何文本作为输入。

嵌入和矢量数据库实操指南

不妨这么做。进入到Postman仪表板，创建一个“body”请求。在主体下，选择“raw”，然后选择“JSON”，以传递JSON对象。

嵌入和矢量数据库实操指南

提到模型和输入。

嵌入和矢量数据库实操指南

向OpenAI发送post请求。您会看到如下所示的类似响应。

您看到的数字是嵌入的矢量。为了存储这些矢量嵌入，您需要一个健壮的数据库，这是SingleStoreDB的亮点所在。不妨创建一个免费的SingleStoreDB Cloud帐户。

嵌入和矢量数据库实操指南

接下来，创建一个工作区，如下所示。

嵌入和矢量数据库实操指南

您可以看到已创建的工作区和附加的示例/默认数据库。

嵌入和矢量数据库实操指南

不妨创建一个数据库。

嵌入和矢量数据库实操指南

在仪表板中可以看到新创建的数据库。

嵌入和矢量数据库实操指南

您可以进入该数据库查看其内容。在本例中，由于我们还没有提供任何数据，因此您将看不到任何内容。

嵌入和矢量数据库实操指南

不妨在数据库中创建一些表。进入到“SQL编辑器”，如图所示。您可以运行一些简单的SQL命令来创建表。

确保在“选择数据库”选项卡下选择数据库。选择刚才创建的那个数据库。

编写一个简单的SQL查询来创建表和数据类型。

嵌入和矢量数据库实操指南

现在，不妨将矢量数据插入这个数据库。我们将在这里输入从Postman接收到的嵌入数据。返回到SQL编辑器，编写以下SQL查询。

嵌入和矢量数据库实操指南

我们使用的值将引用来自Postman的“Hello World”输入。在JSON_ARRAY_PACK中插入从Postman接收到的巨大的数字块。

从Postman拷贝这些数字。将这个巨大的数字块粘贴到值中，然后运行命令。

您可以看到结果被输入到数据库中。

嵌入和矢量数据库实操指南

这就是如何使用Postman从不同的输入创建不同的嵌入，并将生成的矢量嵌入添加到新创建的数据库中。

使用与前面相同的方法将它们存储在数据库中。添加您自己的输入和内容，将其转换成矢量。正如您在这里所见，我们添加了不同的输入，并将生成的矢量嵌入存储到数据库中。

现在不妨搜索一些特定的词语，并从数据库中检索相关数据，做一番试验。不妨回到Postman仪表板，为“OpenAI”这个词语创建一个嵌入。

接下来，我们将针对现有嵌入在数据库中执行搜索。这应该会返回结果，最接近的相似性列表在顶部。不妨进入到SQL编辑器，运行这个查询，如下所示。

将嵌入（巨大的数字块）粘贴到JSON_ARRAY_PACK中，并运行命令。

在上图中，您可以看到关键词“OpenAI”的相似性得分和排名。同样，您可以看到任何关键字的相似性得分。这样，SingleStoreDB就可以用作贵公司的一种有效的矢量数据库。

原文标题：Embeddings and Vector Databases: A Hands-On Guide!，作者：Pavan Belagatti

Tags：数据库点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

向量数据库落地实践

本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见： https://github.com/vearch/zh_docs/blob/v3.3.X/do...【详细内容】

2024-04-03　　Search: 数据库点击:(4)　　评论:(0)　　加入收藏

如何正确选择NoSQL数据库

译者 | 陈峻审校 | 重楼Allied Market Research最近发布的一份报告指出，业界对于NoSQL数据库的需求正在持续上升。2022年，全球NoSQL市场的销售额已达73亿美元，预计到2032年将达...【详细内容】

2024-03-28　　Search: 数据库点击:(13)　　评论:(0)　　加入收藏

为什么数据库连接池不采用 IO 多路复用？

这是一个非常好的问题。IO多路复用被视为是非常好的性能助力器。但是一般我们在使用DB时，还是经常性采用c3p0，tomcat connection pool等技术来与DB连接，哪怕整个程序已经变成以...【详细内容】

2024-03-27　　Search: 数据库点击:(12)　　评论:(0)　　加入收藏

过去一年，我看到了数据库领域的十大发展趋势

作者 | 朱洁策划 | 李冬梅过去一年，行业信心跌至冰点2022 年中，红衫的一篇《适应与忍耐》的报告，对公司经营提出了预警，让各个公司保持现金流，重整团队，想办法增加盈利。这篇报告...【详细内容】

2024-03-12　　Search: 数据库点击:(24)　　评论:(0)　　加入收藏

让数据库和缓存数据保持一致的三种策略

如何保证缓存和数据库的一致性，这算得上是个老生常谈的话题啦，看到好多技术新人在写更新缓存数据代码，采用了非常复杂甚至“诡异”的方案，甚为不解。一、背景目前随着缓存架构方...【详细内容】

2024-02-20　　Search: 数据库点击:(35)　　评论:(0)　　加入收藏

MySQL数据库如何生成分组排序的序号

经常进行数据分析的小伙伴经常会需要生成序号或进行数据分组排序并生成序号。在MySQL8.0中可以使用窗口函数来实现，可以参考历史文章有了这些函数，统计分析事半功倍进行了解。...【详细内容】

2024-01-30　　Search: 数据库点击:(53)　　评论:(0)　　加入收藏

一篇文章，彻底理解数据库操作语言：DDL、DML、DCL、TCL

本篇文章以具体的SQL语句讲解了数据库SQL语言四大分类（数据定义语言DDL，数据操作语言DML，数据查询语言DQL，数据控制语言DCL），同时也介绍了事务控制语言TCL。最近与开发和运维讨论...【详细内容】

2024-01-30　　Search: 数据库点击:(41)　　评论:(0)　　加入收藏

一文读懂：什么是数据库，它到底有啥用？

提到数据库，可能很多人会很陌生。但据库其实已经渗入我们生活的方方面面，像网上购物、扫码点餐、抢红包等等应用背后都离不开数据库的支持。可以说数据库是支撑各类应用软件运...【详细内容】

2024-01-25　　Search: 数据库点击:(42)　　评论:(0)　　加入收藏

oracle数据库基础学习

在当今数字化时代，数据库已成为企业运营的关键要素。而Oracle数据库，作为全球领先的企业级数据库管理系统，更是备受推崇。本文将带您深入了解Oracle数据库的基础知识，帮助您从零...【详细内容】

2024-01-20　　Search: 数据库点击:(85)　　评论:(0)　　加入收藏

一个流行的支持超多数据库的ORM库

Sequelize 是一个流行的 Node.js ORM（对象关系映射）库，用于在 Node.js 中操作关系型数据库。它支持多种数据库系统，如 PostgreSQL、MySQL、SQLite 和 MSSQL，并提供了简单易用的 A...【详细内容】

2024-01-15　　Search: 数据库点击:(74)　　评论:(0)　　加入收藏

▌简易百科推荐

向量数据库落地实践

2024-04-03　　京东云开发者　　　　Tags:向量数据库　点击:(4)　　评论:(0)　　加入收藏

原来 SQL 函数是可以内联的！

介绍在某些情况下，SQL 函数（即指定LANGUAGE SQL）会将其函数体内联到调用它的查询中，而不是直接调用。这可以带来显著的性能提升，因为函数体可以暴露给调用查询的规划器，从而规划器...【详细内容】

2024-04-03　　红石PG　　微信公众号　　Tags:SQL 函数　点击:(3)　　评论:(0)　　加入收藏

如何正确选择NoSQL数据库

2024-03-28　　　　51CTO　　Tags:NoSQL 　点击:(13)　　评论:(0)　　加入收藏

为什么数据库连接池不采用 IO 多路复用？

2024-03-27　　dbaplus社群　　　　Tags:数据库连接池　点击:(12)　　评论:(0)　　加入收藏

八个常见的数据可视化错误以及如何避免它们

在当今以数据驱动为主导的世界里，清晰且具有洞察力的数据可视化至关重要。然而，在创建数据可视化时很容易犯错误，这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可...【详细内容】

2024-03-26　　DeepHub IMBA　　微信公众号　　Tags:数据可视化　点击:(6)　　评论:(0)　　加入收藏

到底有没有必要分库分表，如何考量的

关于是否需要进行分库分表，可以根据以下考量因素来决定：数据量和负载：如果数据量巨大且负载压力较大，单一库单一表可能无法满足性能需求，考虑分库分表。数据增长：预估数据增长...【详细内容】

2024-03-20　　码上遇见你　　微信公众号　　Tags:分库分表　点击:(13)　　评论:(0)　　加入收藏

在 SQL 中写了 in 和 not in，技术总监说要炒了我……

WHY？IN 和 NOT IN 是比较常用的关键字，为什么要尽量避免呢？1、效率低项目中遇到这么个情况：t1表和 t2表都是150w条数据，600M的样子，都不算大。但是这样一句查询 ↓select *...【详细内容】

2024-03-18　　dbaplus社群　　　　Tags:SQL 　点击:(5)　　评论:(0)　　加入收藏

应对慢SQL的致胜法宝：7大实例剖析+优化原则

大促备战，最大的隐患项之一就是慢SQL，对于服务平稳运行带来的破坏性最大，也是日常工作中经常带来整个应用抖动的最大隐患，在日常开发中如何避免出现慢SQL，出现了慢SQL应该按照什...【详细内容】

2024-03-14　　京东云开发者　　　　Tags:慢SQL 　点击:(4)　　评论:(0)　　加入收藏

过去一年，我看到了数据库领域的十大发展趋势

2024-03-12　　　　InfoQ　　Tags:数据库　点击:(24)　　评论:(0)　　加入收藏

SQL优化的七个方法，你会哪个？

一、插入数据优化普通插入：在平时我们执行insert语句的时候，可能都是一条一条数据插入进去的，就像下面这样。INSERT INTO `department` VALUES(1, '研发部(RD)', &#39...【详细内容】

2024-03-07　　程序员恰恰　　微信公众号　　Tags:SQL优化　点击:(19)　　评论:(0)　　加入收藏

推荐资讯

访问网站显示不安全是	掌握独立站SEO策略，提
快手蓝色小钥匙跳转微	微信朋友圈如何置顶
Facebook新用户扩展怎	详解微信里面的分期可
微信表情包更新：原创设	微信朋友圈功能大改版