您当前的位置:首页 > 电脑百科 > 数据库 > 百科

不要轻易押宝“向量数据库”

时间:2023-07-20 19:38:28  来源:51CTO技术栈  作者:
放眼如今的数据库市场,堪称百花齐放。有基于传统路线的,以MySQL,Oracle为基础的;有走新理论的,基于Aurora,Spanner等;有面向应用场景的,比如工业数据库,时序数据库,图数据库等。更有向量数据库这种以黑马之姿为缭乱的数据库江湖增添异色的。

编译丨千山

“为什么你不应该投资向量数据库?”

前段时间,流数据库公司 RisingWave创始人&CEO吴英骏公开发文,阐述了这一有违“时潮”的观点。在文中,吴英骏表示,尽管他对向量数据库的前景颇有信心,但目前并不鼓励进入向量数据库市场。

图源:medium图源:medium

今年以来,大模型热居高不下。而在近几个月的大模型相关发布会或研讨会上,“向量数据库(Vector Database)”一词频频出现,或多或少会成为话题点之一。

回溯一下,在今年3月的NVIDIA GTC Keynote 中, 英伟达CEO黄仁勋首次提及向量数据库,并强调对于构建专有大型语言模型的组织而言,向量数据库至关重要。此后,在平静已久的数据库行业,向量数据库就像是突入的石子,搅乱了一池春水。

仅4月,四家向量数据库初创公司Chroma、Qdrant、Weaviate和Pinecone就斩获了10多亿融资,资本市场对这一赛道的看好可见一斑。

  • Chroma:4月6日宣布获得1800万美元(当前约合人民币1.3亿元)种子轮融资
  • Qdrant:4月19日宣布获得 750 万美元(当前约合人民币5400万元)种子轮融资
  • We­a­v­i­a­te:4月22日宣布获得5000万美元(当前约合人民币3.6亿元)B轮融资
  • Pi­n­e­c­o­ne:4月28日宣布获得1亿美元(当前约合人民币7.2亿元)B轮融资

那么吴英骏为何提出这一论点?向量数据库的热度能维持到几时,此时押注后续又要挤出多少泡沫?我们不妨冷静地观望一下。

1、一夜之间,新范式诞生

数据库发展已历经半个多世纪,经历了各种不同的阶段,可谓发展迅猛。最古老的类型是SQL或关系型数据库。Web 2.0公司不断增长的需求引发了NoSQL革命,其中数据库变得更加灵活,能够更好地应对爆炸式增长的数据量。现在,随着ChatGPT的出现以及AIGC狂潮的爆发,向量数据库的市场被点燃了。

与传统数据库不同,向量数据库更擅长在非结构化数据中寻找意义。这些数据库使用向量嵌入以数值表示数据,并将它们排列在彼此相似的集群中。

传统数据库,常见的关系数据库(如MySQL,PostgreSQL,Oracle)和NoSQL数据库(如MongoDB,Cassandra),几十年来一直是业务数据管理的支柱。它们以结构化格式(如表、文档或键值对)存储和组织数据,从而更容易使用标准编程语言进行查询和操作。

这些数据库擅长处理具有固定模式的结构化数据,但它们经常在处理非结构化数据或高维数据(如图像、音频和文本)方面遇到困难。缺少标签或未对齐的格式意味着非结构化条目可能会在搜索中丢失或错误地从过滤中排除。这给许多数据库操作带来了出错的风险,必须通过手动构建数据来解决这个问题。因此通常需要我们手动审查非结构化条目。但人工审查必然又会耗费大量时间。

此外,随着数据量和速度的增加,它们可能还会面临性能瓶颈,从而引发响应时间变慢和可扩展性问题。

而向量数据库不同,它不依赖于结构化格式,不是依靠不同的类别和列表来组织记录,而是将数据作为数学向量存储在高维空间中并对其进行索引。这种方法称为“向量化”,可以更有效地搜索相似性并更好地处理复杂的数据类型(图像、音视频、自然语言)。某种程度上,向量数据库代表了数据存储和检索的范式转变。

2、成为大模型的“海马体”

一方面,向量数据库简化了人工智能开发者对向量数据的管理。通过把来源权威可信的图片、视频和文本这样的非结构化数据转换成向量,并储存到向量数据库中,它就能帮助大模型具有“长期记忆”,进而减少大模型产生“幻觉”的可能性。

另一方面,向量数据库能够执行近似最近邻 (ANN) 搜索,快速识别大型数据集中的类似项目。其主要优势在于它们使用降维和索引算法等技术,向量数据库可以大规模执行这些搜索,提供闪电般的响应时间,这使其成为推荐系统、异常检测和自然语言处理等应用的理想选择。

打个比方,如果向量数据库是一个巨大的仓库,那么人工智能就是熟练的仓库经理。在这个仓库中,每件物品(数据)都存储在一个盒子(向量)中,整齐地组织在多维空间的货架上。仓库经理(AI)知道每个盒子的确切位置,可以根据物品的相似性快速检索或比较物品。

仓库的组织和优化程度越高,仓库经理就能更快、更准确地找到各种任务所需的物品,例如提出建议、识别模式或检测异常。正如管理良好的仓库对于顺利的业务运营至关重要一样,向量数据库在人工智能驱动的应用程序和解决方案的成功中起着至关重要的作用。

向量数据库创业公司Qdrant的CEO兼联合创始人Andre Zayarni曾提到,绝大多数人工智能研发项目从未投入生产的关键因素是缺乏正确的工具。(如果能)将大模型连接到实时的非结构化数据可以为任何希望构建更有用AI应用的人打开大量机会。显然,向量数据库在这里充当了这样的桥梁作用。

3、热钱涌入,挑战依旧

值得一提的是,向量技术并不新鲜,但在ChatGPT横空出世之前,向量数据库非常小众。前文提到的两家初创公司Pinecone和Weaviate都成立于2019年,但此前无论是融资还是营收都是乏善可陈的状态。

Pinecone联合创始人兼首席执行官Edo Liberty曾坦率地提到,如果没有ChatGPT的出现,我们根本不可能获得巨额融资。

如今大量开发者涌入AIGC开发领域,这些向量数据库厂商也等到了黎明。风口常有,而时代不常有。软件服务初创公司Heltar的创始人Avyukt Aggarwal也谈到,AIGC的爆火成就了向量数据库。“每次淘金热都会有人卖铲子。对于生成式AI,铲子是什么?向量数据库。几乎每一个LLM支持的应用程序都在使用它们或即将使用它们。”

随着部署到企业生产中的AI应用程序与日俱增,对向量数据库的需求必定会直线上升。所以称向量数据库为铲子或许也并不算太过夸张。

但是在这蒸蒸日上的发展态势下,向量数据库依然面临着不可忽视的几项挑战。腾讯云数据库副总经理罗云在接受媒体采访时表示,其一,成本。向量化数据有着高昂的计算成本,寻求存储成本替代是必要的。另外,在检索层面成本也非常高昂。据他判断,短期内在成本方面不会发生数量级差异。其二,平台产品与开源社区之间的关系。向量化技术目前已十分成熟,并存在大量开源解决方案,在不同的领域也存在不同的向量化方案,先发者与后来者,老牌厂商与新生力量之间的竞争正在持续升温。

4、现在押注,为时尚

与任何有效的新技术一样,热度的攀升到底是基于炒作还是潜力,旁观者其实很难辨别。向量数据库到底是大模型时代的天选之子,还是正在经历昙花一现式的虚假繁荣,很多投资者也极难判断。

但有一点可以明确的是,向量数据库的出现并不代表大模型时代已经将像Postgres或NoSQL这样的传统数据库拒之门外了。事实上,Postgres本身就有一个内置的Pgvector功能可以进行向量或相似性搜索。

除了PostgreSQL之外,包括OpenSearch,ClickHouse和Cassandra在内的几个开源数据库已经实现了自己的向量搜索功能。如果你已经使用这些系统,则无需采用新的向量数据库。

此外,还有老牌数据库公司为了不落伍,正在通过与人工智能相关的服务来巩固自己。甲骨文提供了一系列人工智能算法,同时也以“数据库内学习的速度”提供它们。IBM的老式Db2也已更名为“AI数据库”,现在有ML来提高查询性能和“基于信心的查询”。

在《为什么你不应该投资向量数据库?》一文中,吴英骏表示,现在入局向量数据库可能并非合适的时机。其理由主要集中于以下几点:

其一,先发优势明显。市场上已经充斥着大量的向量数据库产品,潜在用户可以很容易地在现有市场中找到合适的选择。

其二,需求层次不同。如果一家公司已经采用了Elastic,redis,SingleStore或Rockset等商业数据库,并且不需要高度先进的向量搜索功能,则可以充分利用这些数据库的现有功能。尽管在向量数据处理方面的表现不如专业的向量数据库,但依然可以满足多数用户的一般要求。

其三,技术在不断前进。随着数据库领域技术的进步,越来越多的数据库会考虑纳入向量搜索功能,以满足当前用户群的需求。对于目前缺乏向量搜索功能的数据库,实现这些功能或许只是时间问题。

简言之,“与其投资新的向量数据库项目,不如集中精力于现有数据库,并探索利用向量引擎增强这些数据库的机会,使其更加健壮和强大”。

5、写在最后

放眼如今的数据库市场,堪称百花齐放。有基于传统路线的,以MySQL,Oracle为基础的;有走新理论的,基于Aurora,Spanner等;有面向应用场景的,比如工业数据库,时序数据库,图数据库等。更有向量数据库这种以黑马之姿为缭乱的数据库江湖增添异色的。

“于无声处听惊雷”。每一次表层应用需求的转变,都会推动底层基础设施技术的更新。数据库同样如是。大模型时代的到来,生成式AI的日新月异,牵引着数据量和数据类型发生质的变化。这催生了对于向量数据库的需求。向量数据库十分契合AI大模型非结构化场景,仿佛天选,但长远来看,其市场需求尚处于初期,中远期规模还不到夸张之时。在若干轮优胜劣汰之后,我们或许才能看清谁是真正的执棋者。

参考链接:

https://thenewstack.io/vector-databases-long-term-memory-for-artificial-intelligence/

https://www.yicai.com/news/101799505.html

https://analyticsindiamag.com/why-are-investors-flocking-to-vector-databases/

https://venturebeat.com/ai/how-vector-databases-can-revolutionize-our-relationship-with-generative-ai/

https://medium.com/data-engineer-things/why-you-shouldnt-invest-in-vector-databases-c0cd3f59d23c



Tags:向量数据库   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
向量数据库落地实践
本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见: https://github.com/vearch/zh_docs/blob/v3.3.X/do...【详细内容】
2024-04-03  Search: 向量数据库  点击:(4)  评论:(0)  加入收藏
简易百科之什么是向量数据库
随着大数据时代的到来,数据存储和处理成为了一个重要的问题。传统的关系型数据库已经无法满足一些场景的需求,例如大规模高维数据的处理和分析。在这样的背景下,向量数据库应运...【详细内容】
2024-01-15  Search: 向量数据库  点击:(166)  评论:(0)  加入收藏
腾讯云把向量数据库“卷”到哪一步了?
“不是我不明白,这世界变化快”,崔健在20世纪写下的这句歌词,放在刚刚过去的2023年,也同样适用。技术风向的变化之快,让不少人感到惊讶,向量数据库这一年的潮起潮落,就是一个典型的...【详细内容】
2024-01-14  Search: 向量数据库  点击:(65)  评论:(0)  加入收藏
纯向量数据库和向量插件都有局限,那未来发展有其他方向吗?
作者 | 张颖峰导读:向量数据库的争议差不多一年了,但我们一直缺少一篇能透彻讲解向量数据库相关问题的文章,这导致在这个领域的讨论一直没有得到充分的澄清。在这篇文章中,我们将...【详细内容】
2024-01-11  Search: 向量数据库  点击:(13)  评论:(0)  加入收藏
探秘向量数据库:从原理到商业应用的旅程
当我们谈及数据库技术,大部分人的第一反应可能是传统的关系型数据库,如MySQL、Oracle或SQL Server。这些数据库技术凭借其成熟稳定的关系型数据模型,已经在企业级应用中占据了...【详细内容】
2023-12-28  Search: 向量数据库  点击:(111)  评论:(0)  加入收藏
一文了解托管在亚马逊云科技的向量数据库MyScale
MyScale是一款完全托管于亚马逊云科技,支持SQL的高效向量数据库。MyScale的优势在于,它在提供与专用向量数据库相匹敌甚至优于的性能的同时,还支持完整的SQL语法。以下内容,将阐...【详细内容】
2023-12-28  Search: 向量数据库  点击:(97)  评论:(0)  加入收藏
如何评估向量数据库
导语:没有通用的“最 佳”向量数据库——选择取决于您的需求。评估可扩展性、功能性、性能以及与用例的兼容性至关重要。在当今数据驱动的世界里,非结构化数据的指...【详细内容】
2023-12-26  Search: 向量数据库  点击:(109)  评论:(0)  加入收藏
解读向量数据库
不论是RAG,还是Agent,几乎每个LLM 驱动的应用程序都可能会用到向量数据库。那么,向量数据库是什么?与传统数据库有何不同? 又如何选择向量数据库呢? 本文是老码农关于向量数据库的...【详细内容】
2023-11-27  Search: 向量数据库  点击:(133)  评论:(0)  加入收藏
初识向量数据库与pgvector实践
随着大语言模型的兴起,向量数据库正愈发受到人们的关注。作为对向量数据库的一名小白,近期简单对这一新技术方向做了些了解,特分享给大家。 1. 大火的向量数据库 1).什么是向...【详细内容】
2023-11-17  Search: 向量数据库  点击:(208)  评论:(0)  加入收藏
国内首个向量数据库标准发布
科技日报北京11月15日电 (记者都芃)15日,中国信通院联合腾讯云计算(北京)有限责任公司、中移(苏州)软件技术有限公司等多家企业共同编制的、国内首个向量数据库标准正式发布,...【详细内容】
2023-11-16  Search: 向量数据库  点击:(211)  评论:(0)  加入收藏
▌简易百科推荐
向量数据库落地实践
本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见: https://github.com/vearch/zh_docs/blob/v3.3.X/do...【详细内容】
2024-04-03  京东云开发者    Tags:向量数据库   点击:(4)  评论:(0)  加入收藏
原来 SQL 函数是可以内联的!
介绍在某些情况下,SQL 函数(即指定LANGUAGE SQL)会将其函数体内联到调用它的查询中,而不是直接调用。这可以带来显著的性能提升,因为函数体可以暴露给调用查询的规划器,从而规划器...【详细内容】
2024-04-03  红石PG  微信公众号  Tags:SQL 函数   点击:(3)  评论:(0)  加入收藏
如何正确选择NoSQL数据库
译者 | 陈峻审校 | 重楼Allied Market Research最近发布的一份报告指出,业界对于NoSQL数据库的需求正在持续上升。2022年,全球NoSQL市场的销售额已达73亿美元,预计到2032年将达...【详细内容】
2024-03-28    51CTO  Tags:NoSQL   点击:(13)  评论:(0)  加入收藏
为什么数据库连接池不采用 IO 多路复用?
这是一个非常好的问题。IO多路复用被视为是非常好的性能助力器。但是一般我们在使用DB时,还是经常性采用c3p0,tomcat connection pool等技术来与DB连接,哪怕整个程序已经变成以...【详细内容】
2024-03-27  dbaplus社群    Tags:数据库连接池   点击:(12)  评论:(0)  加入收藏
八个常见的数据可视化错误以及如何避免它们
在当今以数据驱动为主导的世界里,清晰且具有洞察力的数据可视化至关重要。然而,在创建数据可视化时很容易犯错误,这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可...【详细内容】
2024-03-26  DeepHub IMBA  微信公众号  Tags:数据可视化   点击:(6)  评论:(0)  加入收藏
到底有没有必要分库分表,如何考量的
关于是否需要进行分库分表,可以根据以下考量因素来决定: 数据量和负载:如果数据量巨大且负载压力较大,单一库单一表可能无法满足性能需求,考虑分库分表。 数据增长:预估数据增长...【详细内容】
2024-03-20  码上遇见你  微信公众号  Tags:分库分表   点击:(13)  评论:(0)  加入收藏
在 SQL 中写了 in 和 not in,技术总监说要炒了我……
WHY?IN 和 NOT IN 是比较常用的关键字,为什么要尽量避免呢?1、效率低项目中遇到这么个情况:t1表 和 t2表 都是150w条数据,600M的样子,都不算大。但是这样一句查询 ↓select *...【详细内容】
2024-03-18  dbaplus社群    Tags:SQL   点击:(5)  评论:(0)  加入收藏
应对慢SQL的致胜法宝:7大实例剖析+优化原则
大促备战,最大的隐患项之一就是慢SQL,对于服务平稳运行带来的破坏性最大,也是日常工作中经常带来整个应用抖动的最大隐患,在日常开发中如何避免出现慢SQL,出现了慢SQL应该按照什...【详细内容】
2024-03-14  京东云开发者    Tags:慢SQL   点击:(4)  评论:(0)  加入收藏
过去一年,我看到了数据库领域的十大发展趋势
作者 | 朱洁策划 | 李冬梅过去一年,行业信心跌至冰点2022 年中,红衫的一篇《适应与忍耐》的报告,对公司经营提出了预警,让各个公司保持现金流,重整团队,想办法增加盈利。这篇报告...【详细内容】
2024-03-12    InfoQ  Tags:数据库   点击:(26)  评论:(0)  加入收藏
SQL优化的七个方法,你会哪个?
一、插入数据优化 普通插入:在平时我们执行insert语句的时候,可能都是一条一条数据插入进去的,就像下面这样。INSERT INTO `department` VALUES(1, '研发部(RD)', &#39...【详细内容】
2024-03-07  程序员恰恰  微信公众号  Tags:SQL优化   点击:(19)  评论:(0)  加入收藏
站内最新
站内热门
站内头条