译者 | 布加迪
审校 | 重楼
这场革命的核心是矢量数据库概念,这一突破性发展正在重塑我们处理复杂数据的方式。与传统的关系数据库不同,这种数据库具有管理和处理高维矢量数据的独特功能,这种数据是许多AI 和机器学习应用所固有的。随着我们更深入研究先进AI时代,矢量数据库正在成为一种关键的工具,在处理生成式AI模型生成的庞大复杂的数据集方面提供了无与伦比的效率和准确性。
本文旨在探索矢量数据库在生成式AI界的关键作用,着重介绍其功能、工作方式、用例和实操教程。
矢量数据库是一种用于存储、索引和检索多维数据点的数据库,这些多维通常称为矢量。不同于数据库处理表中组织的数据(如数字和字符串),矢量数据库是专门为管理多维矢量空间中表示的数据而设计的。这使得它们非常适合AI和机器学习应用,这类应用中的数据通常采用矢量的形式,比如图像嵌入、文本嵌入或其他类型的特征矢量。
这些数据库利用索引和搜索算法进行相似性搜索,使它们能够快速识别数据集中最相似的矢量。这种功能对于推荐系统、图像和语音识别以及自然语言处理等任务至关重要,因为有效地理解和处理高维数据起着至关重要的作用。因此,矢量数据库代表了数据库技术的进步,可以满足严重依赖大量数据的AI应用的需求。
我们谈论矢量数据库时,一定要知道什么是矢量嵌入——数据最终如何存储在矢量数据库中。矢量嵌入充当数字代码,封装了对象(比如音乐流媒体应用程序中的歌曲)的关键特征。通过分析和提取关键特征(比如节奏和流派),每首歌曲通过嵌入模型转换成矢量嵌入。
这个过程确保具有相似属性的歌曲具有相似的矢量代码。矢量数据库存储这些嵌入,并在查询时比较这些矢量,以查找和推荐匹配特征最接近的歌曲,有助于为用户提供高效、相关的搜索体验。
执行用户查询时,涉及各种类型的原始数据,包括图像、文档、视频和音频。所有这些数据可能是非结构化数据,也可能是结构化数据,先通过嵌入模型进行处理。该模型通常是一个复杂的神经网络,将数据转换成高维数值矢量,并有效地将数据的特征编码成矢量嵌入,然后将其存储到SingleStoreDB之类的矢量数据库中。
需要检索时,矢量数据库执行操作(比如相似性搜索),以查找和检索与查询最相似的矢量,从而有效地处理复杂的查询,并向用户提供相关的结果。这整个过程支持在需要高速搜索和检索功能的应用中快速准确地管理大量不同类型的数据。
不妨探讨一下矢量数据库与传统数据库之间的区别。
矢量数据库在数据组织和检索方法上与传统数据库大不相同。传统数据库的结构是处理离散的标量数据类型,比如数字和字符串,将它们组织成行和列。
这种结构对于事务性数据来说很理想,但对于AI和机器学习中通常使用的复杂高维数据来说效率较低。相比之下,矢量数据库旨在存储和管理矢量数据——即代表多维空间中点的数字数组。
这使得它们天生就适合于涉及相似性搜索的任务,其目标是在高维空间中找到最接近的数据点,这是图像和语音识别、推荐系统和自然语言处理等AI应用的一个常见要求。通过利用为高维矢量空间优化的索引和搜索算法,矢量数据库提供了一种更高效、更有效的方法来处理在先进AI和机器学习时代下日益盛行的那种数据。
矢量数据库在企业推荐系统中起着至关重要的作用。比如说,它们可以根据用户的浏览或购买行为向用户推荐商品。即使在欺诈检测系统中也大放异彩,它们可以通过比较交易嵌入与欺诈活动的已知概况来检测异常模式,从而实现实时欺诈检测。人脸识别是另外的用例,其中矢量数据库存储脸部特征嵌入,有助于安全地实施监视。
它们甚至可以通过使用预先确定的或不同的答复来响应类似的查询,从而帮助组织做好客户支持。市场研究是矢量数据库擅长的另一个领域,它通过分析客户反馈和社交媒体帖子,将它们转换成文本嵌入来分析情绪和发现趋势,从而获得更强大的商业洞察力。
SingleStoreDB强大的矢量数据库功能可以顺畅地服务于AI驱动的应用、聊天机器人和图像识别系统等。有了SingleStoreDB,就不需要为矢量密集型工作负载维护专用的矢量数据库了。
与传统的矢量数据库方法不同,SingleStoreDB采用了一种新颖的方法,将矢量数据与不同类型的数据类型一起放在关系表中。这种创新的合并使您能够轻松地访问与矢量数据相关的全面的元数据和额外属性,同时利用SQL广泛的查询功能。
SingleStoreDB采用可扩展的框架精心构建,确保始终支持快速增长的数据需求。告别限制,拥抱随数据需求而进化的解决方案。
先决条件
一旦您登录到OpenAI帐户,进入到这里所示的API选项卡。
接下来,转到嵌入选项卡。
我们将从嵌入的API请求开始入手。为此,我们需要进入到API References页面。进入到API References页面下的“嵌入”选项卡,查看如何创建嵌入。
现在,不妨为嵌入创建API请求。为此,我们需要像Postman这样的工具。您可以注册,并在Postman帐户中创建一个工作区。
现在,获取我们的API URL ' https://api.openai.com/v1/embeddings ',并将其粘贴到Postman URL部分中,使用OpenAI API密钥对其进行授权。
是时候创建我们的第一个嵌入了。我们只需要一个模型和输入参数,如OpenAI文档页面所示。
对于该模型,我们将使用“text-embedding-ada-002”和任何文本作为输入。
不妨这么做。进入到Postman仪表板,创建一个“body”请求。在主体下,选择“raw”,然后选择“JSON”,以传递JSON对象。
提到模型和输入。
向OpenAI发送post请求。您会看到如下所示的类似响应。
您看到的数字是嵌入的矢量。为了存储这些矢量嵌入,您需要一个健壮的数据库,这是SingleStoreDB的亮点所在。不妨创建一个免费的SingleStoreDB Cloud帐户。
接下来,创建一个工作区,如下所示。
您可以看到已创建的工作区和附加的示例/默认数据库。
不妨创建一个数据库。
在仪表板中可以看到新创建的数据库。
您可以进入该数据库查看其内容。在本例中,由于我们还没有提供任何数据,因此您将看不到任何内容。
不妨在数据库中创建一些表。进入到“SQL编辑器”,如图所示。您可以运行一些简单的SQL命令来创建表。
确保在“选择数据库”选项卡下选择数据库。选择刚才创建的那个数据库。
编写一个简单的SQL查询来创建表和数据类型。
现在,不妨将矢量数据插入这个数据库。我们将在这里输入从Postman接收到的嵌入数据。返回到SQL编辑器,编写以下SQL查询。
我们使用的值将引用来自Postman的“Hello World”输入。在JSON_ARRAY_PACK中插入从Postman接收到的巨大的数字块。
从Postman拷贝这些数字。将这个巨大的数字块粘贴到值中,然后运行命令。
您可以看到结果被输入到数据库中。
这就是如何使用Postman从不同的输入创建不同的嵌入,并将生成的矢量嵌入添加到新创建的数据库中。
使用与前面相同的方法将它们存储在数据库中。添加您自己的输入和内容,将其转换成矢量。正如您在这里所见,我们添加了不同的输入,并将生成的矢量嵌入存储到数据库中。
现在不妨搜索一些特定的词语,并从数据库中检索相关数据,做一番试验。不妨回到Postman仪表板,为“OpenAI”这个词语创建一个嵌入。
接下来,我们将针对现有嵌入在数据库中执行搜索。这应该会返回结果,最接近的相似性列表在顶部。不妨进入到SQL编辑器,运行这个查询,如下所示。
将嵌入(巨大的数字块)粘贴到JSON_ARRAY_PACK中,并运行命令。
在上图中,您可以看到关键词“OpenAI”的相似性得分和排名。同样,您可以看到任何关键字的相似性得分。这样,SingleStoreDB就可以用作贵公司的一种有效的矢量数据库。
原文标题:Embeddings and Vector Databases: A Hands-On Guide!,作者:Pavan Belagatti