编译丨千山
“为什么你不应该投资向量数据库?”
前段时间,流数据库公司 RisingWave创始人&CEO吴英骏公开发文,阐述了这一有违“时潮”的观点。在文中,吴英骏表示,尽管他对向量数据库的前景颇有信心,但目前并不鼓励进入向量数据库市场。
图源:medium
今年以来,大模型热居高不下。而在近几个月的大模型相关发布会或研讨会上,“向量数据库(Vector Database)”一词频频出现,或多或少会成为话题点之一。
回溯一下,在今年3月的NVIDIA GTC Keynote 中, 英伟达CEO黄仁勋首次提及向量数据库,并强调对于构建专有大型语言模型的组织而言,向量数据库至关重要。此后,在平静已久的数据库行业,向量数据库就像是突入的石子,搅乱了一池春水。
仅4月,四家向量数据库初创公司Chroma、Qdrant、Weaviate和Pinecone就斩获了10多亿融资,资本市场对这一赛道的看好可见一斑。
那么吴英骏为何提出这一论点?向量数据库的热度能维持到几时,此时押注后续又要挤出多少泡沫?我们不妨冷静地观望一下。
数据库发展已历经半个多世纪,经历了各种不同的阶段,可谓发展迅猛。最古老的类型是SQL或关系型数据库。Web 2.0公司不断增长的需求引发了NoSQL革命,其中数据库变得更加灵活,能够更好地应对爆炸式增长的数据量。现在,随着ChatGPT的出现以及AIGC狂潮的爆发,向量数据库的市场被点燃了。
与传统数据库不同,向量数据库更擅长在非结构化数据中寻找意义。这些数据库使用向量嵌入以数值表示数据,并将它们排列在彼此相似的集群中。
传统数据库,常见的关系数据库(如MySQL,PostgreSQL,Oracle)和NoSQL数据库(如MongoDB,Cassandra),几十年来一直是业务数据管理的支柱。它们以结构化格式(如表、文档或键值对)存储和组织数据,从而更容易使用标准编程语言进行查询和操作。
这些数据库擅长处理具有固定模式的结构化数据,但它们经常在处理非结构化数据或高维数据(如图像、音频和文本)方面遇到困难。缺少标签或未对齐的格式意味着非结构化条目可能会在搜索中丢失或错误地从过滤中排除。这给许多数据库操作带来了出错的风险,必须通过手动构建数据来解决这个问题。因此通常需要我们手动审查非结构化条目。但人工审查必然又会耗费大量时间。
此外,随着数据量和速度的增加,它们可能还会面临性能瓶颈,从而引发响应时间变慢和可扩展性问题。
而向量数据库不同,它不依赖于结构化格式,不是依靠不同的类别和列表来组织记录,而是将数据作为数学向量存储在高维空间中并对其进行索引。这种方法称为“向量化”,可以更有效地搜索相似性并更好地处理复杂的数据类型(图像、音视频、自然语言)。某种程度上,向量数据库代表了数据存储和检索的范式转变。
一方面,向量数据库简化了人工智能开发者对向量数据的管理。通过把来源权威可信的图片、视频和文本这样的非结构化数据转换成向量,并储存到向量数据库中,它就能帮助大模型具有“长期记忆”,进而减少大模型产生“幻觉”的可能性。
另一方面,向量数据库能够执行近似最近邻 (ANN) 搜索,快速识别大型数据集中的类似项目。其主要优势在于它们使用降维和索引算法等技术,向量数据库可以大规模执行这些搜索,提供闪电般的响应时间,这使其成为推荐系统、异常检测和自然语言处理等应用的理想选择。
打个比方,如果向量数据库是一个巨大的仓库,那么人工智能就是熟练的仓库经理。在这个仓库中,每件物品(数据)都存储在一个盒子(向量)中,整齐地组织在多维空间的货架上。仓库经理(AI)知道每个盒子的确切位置,可以根据物品的相似性快速检索或比较物品。
仓库的组织和优化程度越高,仓库经理就能更快、更准确地找到各种任务所需的物品,例如提出建议、识别模式或检测异常。正如管理良好的仓库对于顺利的业务运营至关重要一样,向量数据库在人工智能驱动的应用程序和解决方案的成功中起着至关重要的作用。
向量数据库创业公司Qdrant的CEO兼联合创始人Andre Zayarni曾提到,绝大多数人工智能研发项目从未投入生产的关键因素是缺乏正确的工具。(如果能)将大模型连接到实时的非结构化数据可以为任何希望构建更有用AI应用的人打开大量机会。显然,向量数据库在这里充当了这样的桥梁作用。
值得一提的是,向量技术并不新鲜,但在ChatGPT横空出世之前,向量数据库非常小众。前文提到的两家初创公司Pinecone和Weaviate都成立于2019年,但此前无论是融资还是营收都是乏善可陈的状态。
Pinecone联合创始人兼首席执行官Edo Liberty曾坦率地提到,如果没有ChatGPT的出现,我们根本不可能获得巨额融资。
如今大量开发者涌入AIGC开发领域,这些向量数据库厂商也等到了黎明。风口常有,而时代不常有。软件服务初创公司Heltar的创始人Avyukt Aggarwal也谈到,AIGC的爆火成就了向量数据库。“每次淘金热都会有人卖铲子。对于生成式AI,铲子是什么?向量数据库。几乎每一个LLM支持的应用程序都在使用它们或即将使用它们。”
随着部署到企业生产中的AI应用程序与日俱增,对向量数据库的需求必定会直线上升。所以称向量数据库为铲子或许也并不算太过夸张。
但是在这蒸蒸日上的发展态势下,向量数据库依然面临着不可忽视的几项挑战。腾讯云数据库副总经理罗云在接受媒体采访时表示,其一,成本。向量化数据有着高昂的计算成本,寻求存储成本替代是必要的。另外,在检索层面成本也非常高昂。据他判断,短期内在成本方面不会发生数量级差异。其二,平台产品与开源社区之间的关系。向量化技术目前已十分成熟,并存在大量开源解决方案,在不同的领域也存在不同的向量化方案,先发者与后来者,老牌厂商与新生力量之间的竞争正在持续升温。
与任何有效的新技术一样,热度的攀升到底是基于炒作还是潜力,旁观者其实很难辨别。向量数据库到底是大模型时代的天选之子,还是正在经历昙花一现式的虚假繁荣,很多投资者也极难判断。
但有一点可以明确的是,向量数据库的出现并不代表大模型时代已经将像Postgres或NoSQL这样的传统数据库拒之门外了。事实上,Postgres本身就有一个内置的Pgvector功能可以进行向量或相似性搜索。
除了PostgreSQL之外,包括OpenSearch,ClickHouse和Cassandra在内的几个开源数据库已经实现了自己的向量搜索功能。如果你已经使用这些系统,则无需采用新的向量数据库。
此外,还有老牌数据库公司为了不落伍,正在通过与人工智能相关的服务来巩固自己。甲骨文提供了一系列人工智能算法,同时也以“数据库内学习的速度”提供它们。IBM的老式Db2也已更名为“AI数据库”,现在有ML来提高查询性能和“基于信心的查询”。
在《为什么你不应该投资向量数据库?》一文中,吴英骏表示,现在入局向量数据库可能并非合适的时机。其理由主要集中于以下几点:
其一,先发优势明显。市场上已经充斥着大量的向量数据库产品,潜在用户可以很容易地在现有市场中找到合适的选择。
其二,需求层次不同。如果一家公司已经采用了Elastic,redis,SingleStore或Rockset等商业数据库,并且不需要高度先进的向量搜索功能,则可以充分利用这些数据库的现有功能。尽管在向量数据处理方面的表现不如专业的向量数据库,但依然可以满足多数用户的一般要求。
其三,技术在不断前进。随着数据库领域技术的进步,越来越多的数据库会考虑纳入向量搜索功能,以满足当前用户群的需求。对于目前缺乏向量搜索功能的数据库,实现这些功能或许只是时间问题。
简言之,“与其投资新的向量数据库项目,不如集中精力于现有数据库,并探索利用向量引擎增强这些数据库的机会,使其更加健壮和强大”。
放眼如今的数据库市场,堪称百花齐放。有基于传统路线的,以MySQL,Oracle为基础的;有走新理论的,基于Aurora,Spanner等;有面向应用场景的,比如工业数据库,时序数据库,图数据库等。更有向量数据库这种以黑马之姿为缭乱的数据库江湖增添异色的。
“于无声处听惊雷”。每一次表层应用需求的转变,都会推动底层基础设施技术的更新。数据库同样如是。大模型时代的到来,生成式AI的日新月异,牵引着数据量和数据类型发生质的变化。这催生了对于向量数据库的需求。向量数据库十分契合AI大模型非结构化场景,仿佛天选,但长远来看,其市场需求尚处于初期,中远期规模还不到夸张之时。在若干轮优胜劣汰之后,我们或许才能看清谁是真正的执棋者。
https://thenewstack.io/vector-databases-long-term-memory-for-artificial-intelligence/
https://www.yicai.com/news/101799505.html
https://analyticsindiamag.com/why-are-investors-flocking-to-vector-databases/
https://medium.com/data-engineer-things/why-you-shouldnt-invest-in-vector-databases-c0cd3f59d23c