您当前的位置:首页 > 电脑百科 > 数据库 > 百科

如何使用图数据库提高向量搜索精确度?

时间:2024-04-29 12:31:27  来源:AI小智  作者:

文本嵌入和向量搜索技术可以帮助我们根据文档的含义及其相似性来检索文档。但当需要根据日期或类别等特定标准来筛选信息时,这些技术就显得力不从心。为了解决这个问题,我们可以引入元数据过滤或过滤向量搜索,这允许我们根据用户的特定需求来缩小搜索范围。

图片图片

例如,用户可能想要了解 2021 年实施的新政策。通过使用元数据过滤器,系统可以先筛选出 2021 年的文档,然后在这些文档中执行向量相似性搜索,以找到与用户兴趣最相关的文档。这种先进行元数据过滤再执行向量搜索的两步策略,能够显著提高搜索的相关性和准确性。

近期,Neo4j 引入了基于节点属性的 LangChAIn 元数据过滤支持。由于图形数据库能够存储复杂的结构化和非结构化数据,我们可以利用这些数据来执行更精细的元数据过滤。

图片图片

以一个包含文章和组织信息的数据集为例,文章节点包含了文本和嵌入值,而与文章相关联的组织节点则包含了日期、情感、作者等更多信息。通过这些信息,我们可以构建复杂的查询,以回答如

  • Rod Johnson 所在的公司是否实施了新的在家工作政策?
  • Neo4j 投资的公司是否有负面新闻?
  • 与为现代汽车供应的公司相关的供应链问题是否有任何值得注意的新闻?

等问题。

在本篇博客中,Tomaz Bratanic 将向我们展示如何结合 LangChain 和 OpenAI 函数调用代理来实现基于图的元数据过滤。相关代码已在 https://Github.com/tomasonjo/blogs/blob/master/llm/graph_based_prefiltering.ipynb 上提供。

概览

我们将使用 Neo4j 托管的公共演示服务器上的 companies 图数据集。您可以通过以下凭据访问该数据集:

URI: https://demo.neo4jlabs.com:7473/browser/
用户名: companies
密码: companies
数据库: companies

图片图片

数据集的完整模式包括以 Organization 节点为中心的丰富信息,涵盖供应商、竞争对手、位置、董事会成员等。此外,还有提及特定组织的文章及其相应的文本块。

我们将实现一个 OpenAI 代理,它可以根据用户输入动态生成 Cypher 语句,并从图形数据库检索相关文本块。这个工具将提供四个可选输入参数:

  • 主题:用户感兴趣的特定信息或主题。
  • 组织:用户希望查询信息的组织。
  • 国家:用户感兴趣的组织的国家。
  • 情感:文章的情感倾向。

我们将根据这些输入参数动态构建相应的 Cypher 语句,从图形数据库检索相关信息,并利用大型语言模型(LLM)生成最终答案。

要跟随代码实践,您将需要一个 OpenAI API 密钥。

功能实现

我们从设置 Neo4j 的连接凭证和相关连接开始。

import os

os.environ["OPENAI_API_KEY"] = "sk-"
os.environ["NEO4J_URI"] = "neo4j+s://demo.neo4jlabs.com"
os.environ["NEO4J_USERNAME"] = "companies"
os.environ["NEO4J_PASSword"] = "companies"
os.environ["NEO4J_DATABASE"] = "companies"

embeddings = OpenAIEmbeddings()
graph = Neo4jGraph()
vector_index = Neo4jVector.from_existing_index(
 embeddings,
 index_name="news"
)

我们使用 OpenAI 的文本嵌入技术,您需要一个 API 密钥来使用它。接下来,我们定义了与 Neo4j 的连接,这使我们能够执行任意的 Cypher 语句。最后,我们创建了一个 Neo4jVector 连接,它可以通过查询现有的向量索引来检索信息。目前,我们不能将向量索引与预过滤方法结合使用,只能与后过滤方法结合使用。但本文将专注于预过滤方法与全面向量相似性搜索的结合使用。

本文的核心是一个名为 get_organization_news 的函数,它能够根据用户的需求动态生成 Cypher 查询语句并检索相关信息。为了清晰起见,我将代码分成了多个部分。

  • 首先,我们定义了一组输入参数,这些参数都是可选的文字输入。特别地,topic 参数用来在文档中搜索特定的信息。在实际应用中,我们会将 topic 参数的值用于向量相似性搜索。另外三个参数则用于展示预过滤的方法。如果所有预过滤参数都没有提供,我们可以直接利用现有的向量索引来检索相关文档。如果提供了预过滤参数,我们会开始构建一个基础的 Cypher 查询语句,这个语句将用于后续的预过滤元数据方法。我们使用 CYPHER runtime = parallel parallelRuntimeSupport=all 指令来告诉 Neo4j 数据库,在可能的情况下使用 并行运行时。然后,我们准备一个匹配语句来选择 Chunk 节点和它们关联的 Article 节点。
def get_organization_news(
 topic: Optional[str] = None,
 organization: Optional[str] = None,
 country: Optional[str] = None,
 sentiment: Optional[str] = None,
) -> str:
 # 如果没有预过滤条件,我们可以直接使用向量索引进行搜索
 if topic and not organization and not country and not sentiment:
     return vector_index.similarity_search(topic)
 # 使用并行运行时(如果可用)
 base_query = (
     "CYPHER runtime = parallel parallelRuntimeSupport=all "
     "MATCH (c:Chunk)<-[:HAS_CHUNK]-(a:Article) WHERE "
 )
 where_queries = []
 params = {"k": 5}  # 设置要检索的文本块数量
  • 接下来,我们动态地向 Cypher 语句添加元数据过滤器。我们从 Organization 过滤器开始。
 
if organization:
    # 将组织名称映射到数据库中的候选项
    candidates = get_candidates(organization)
    if len(candidates) > 1:  # 如果候选选项太多,则需要用户进一步明确
        return f"请明确指出用户指的是以下哪个组织:{candidates}"
    # 添加一个过滤条件,筛选出提及特定组织的 articles
    where_queries.Append(f"EXISTS {{(a)-[:MENTIONS]->(:Organization {{name: $organization}})}}")
    # 将组织名称作为参数传入
    params["organization"] = candidates[0]

如果系统识别出用户感兴趣的特定组织,我们会使用 get_candidates 函数将该组织的名称映射到数据库中的候选项。如果找到多个匹配项,我们会要求用户进一步明确。如果没有找到多个匹配项,我们会添加一个过滤条件,筛选出提及特定组织的 articles。为了安全起见,我们使用参数化查询而不是直接拼接查询字符串。

  • 随后,我们处理用户可能基于提及的组织的国家进行预过滤的情况。
if country:
    # 由于国家名称标准化,不需要额外的映射
    where_queries.append(f"EXISTS {{(a)-[:MENTIONS]->(:Organization)-[:IN_CITY]->()-[:IN_COUNTRY]->(:Country {{name: $country}})}}")
    params["country"] = country

由于国家名称通常是标准化的,我们不需要将国家名称映射到数据库中的值,因为大型语言模型(LLM)已经熟悉大多数国家的名称。

  • 随后,我们处理情感元数据的过滤。
if sentiment:
    if sentiment == "positive":
        where_queries.append("a.sentiment > $sentiment")
        params["sentiment"] = 0.5
    else:
        where_queries.append("a.sentiment < $sentiment")
        params["sentiment"] = -0.5

我们要求 LLM 仅接受正面或负面两种情感输入值,并将这些值映射到适当的过滤器上。

  • 对于 topic 参数,我们采取了略有不同的处理方式,因为它不用于预过滤,而是用于向量相似性搜索。
if topic:  # 执行向量比较
    vector_snippet = (
        "WITH c, a, vector.similarity.cosine(c.embedding,$embedding) AS score "
        "ORDER BY score DESC LIMIT toInteger($k)"
    )
    params["embedding"] = embeddings.embed_query(topic)
else:  # 只返回最新的数据
    vector_snippet = "WITH c, a ORDER BY a.date DESC LIMIT toInteger($k)"

如果系统识别出用户对新闻中的特定主题感兴趣,我们使用主题输入的文本嵌入来找到最相关的文档。如果没有识别出特定主题,我们简单地返回最新的几篇文章,并避免向量相似性搜索。

  • 最后,我们将 Cypher 语句组合起来,并用它来从数据库中检索信息。
return_snippet = "RETURN '#title ' + a.title + 'n#date ' + toString(a.date) + 'n#text ' + c.text AS output"

complete_query = (
    base_query + " AND ".join(where_queries) + vector_snippet + return_snippet
)

# 从数据库检索信息
data = graph.query(complete_query, params)
print(f"Cypher: {complete_query}n")
# 在打印前安全地移除嵌入
params.pop('embedding', None)
print(f"参数: {params}")
return "###文章: ".join([el["output"] for el in data])

我们通过组合所有查询片段来构建最终的 complete_query。然后,我们使用动态生成的 Cypher 语句从数据库检索信息并返回结果。让我们通过一个示例输入来看看生成的 Cypher 语句。

get_organization_news(
  organizatinotallow='neo4j',
  sentiment='positive',
  topic='远程工作'
)

# Cypher: CYPHER runtime = parallel parallelRuntimeSupport=all
# MATCH (c:Chunk)<-[:HAS_CHUNK]-(a:Article) WHERE 
# EXISTS {(a)-[:MENTIONS]->(:Organization {name: $organization})} AND 
# a.sentiment > $sentiment 
# WITH c, a, vector.similarity.cosine(c.embedding,$embedding) AS score 
# ORDER BY score DESC LIMIT toInteger($k) 
# RETURN '#title ' + a.title + 'n#date ' + toString(a.date) + 'n#text ' + c.text AS output

# 参数: {'k': 5, 'organization': 'Neo4j', 'sentiment': 0.5}

动态查询生成按预期工作,能够从数据库中检索到相关的信息。

构建新闻信息代理工具

接下来,我们将创建一个代理工具,用于处理新闻信息查询。首先,我们需要为输入参数编写一些说明。

fewshot_examples = """{输入:google员工的健康福利在新闻中有哪些?查询:健康福利}
{输入:关于Google的最新正面新闻是什么?查询:无}
{输入:有关VertexAI和Google的新闻有哪些?查询:VertexAI}
{输入:关于Google的新产品有哪些新闻?查询:新产品}
"""

class NewsInput(BaseModel):
    topic: Optional[str] = Field(
        descriptinotallow="除了组织、国家和情感倾向之外,如果您对其他特定信息或话题感兴趣,请告诉我们。以下是一些示例:"
        + fewshot_examples
    )
    organization: Optional[str] = Field(
        descriptinotallow="您希望了解信息的组织名称"
    )
    country: Optional[str] = Field(
        descriptinotallow="您感兴趣的组织的所在国家。请使用正式的国家名称,例如‘美利坚合众国’或‘法国’。"
    )
    sentiment: Optional[str] = Field(
        descriptinotallow="您想要查询的文章情感倾向", enum=["正面", "负面"]
    )

在定义预过滤参数时,我遇到了一些困难,特别是如何让 topic 参数按预期工作。为了解决这个问题,我提供了一些示例,帮助语言模型更好地理解用户的需求。同时,我们还向模型提供了关于国家名称格式的指导,并对情感倾向选项进行了枚举。

现在,我们可以定义一个自定义工具,为其指定一个名称和一段包含使用说明的描述。

class NewsTool(BaseTool):
    name = "新闻信息工具"
    description = (
        "当你需要在新闻中查找相关信息时,这个工具会非常有用。"
    )
    args_schema:Type[BaseModel] = NewsInput

    def _run(
        self,
        topic: Optional[str] = None,
        organization: Optional[str] = None,
        country: Optional[str] = None,
        sentiment: Optional[str] = None,
        run_manager: Optional[CallbackManagerForToolRun] = None,
    ) -> str:
        ""“使用这个工具来获取新闻信息。”""
        return get_organization_news(topic, organization, country, sentiment)

最后,我们需要定义一个代理执行器。这里,我使用了之前实现的 OpenAI 代理的 LCEL 实现。

llm = ChatOpenAI(temperature=0, model="GPT-4-turbo", streaming=True)
tools = [NewsTool()]

llm_with_tools = llm.bind(functinotallow=[format_tool_to_openai_function(t) for t in tools])

prompt = ChatPromptTemplate.from_messages(
    [
        (
            "system",
            “你是一个乐于助人的助手,可以找到关于电影的信息并进行推荐。如果工具需要进一步的问题,请确保向用户询问以获得澄清。确保在后续问题中包含任何需要澄清的可用选项。只做用户明确请求的事情。”
        ),
        MessagesPlaceholder(variable_name="chat_history"),
        ("user", "{input}"),
        MessagesPlaceholder(variable_name="agent_scratchpad"),
    ]
)

agent = (
    {
        "input": lambda x: x["input"],
        "chat_history": lambda x: _format_chat_history(x["chat_history"])
        if x.get("chat_history")
        else [],
        "agent_scratchpad": lambda x: format_to_openai_function_messages(
            x["intermediate_steps"]
        ),
    }
    | prompt
    | llm_with_tools
    | OpenAIFunctionsAgentOutputParser()
)

agent_executor = AgentExecutor(agent=agent, tools=tools)

这个代理工具可以用于检索新闻信息。我们还添加了 聊天记录 消息占位符,这样代理就可以进行对话,并允许提出后续问题和回复。

实施测试

让我们尝试几个查询,看看生成的 Cypher 语句和参数是什么样的。

agent_executor.invoke(
  {"输入": "关于 neo4j 的一些正面新闻是什么?"}
)

# Cypher: CYPHER runtime = parallel parallelRuntimeSupport=all 
# MATCH (c:Chunk)<-[:HAS_CHUNK]-(a:Article) WHERE 
# EXISTS {(a)-[:MENTIONS]->(:Organization {name: $organization})} AND 
# a.sentiment > $sentiment WITH c, a 
# ORDER BY a.date DESC LIMIT toInteger($k) 
# RETURN '#标题 ' + a.title + '日期 ' + toString(a.date) + '文本 ' + c.text AS output
# 参数: {'k': 5, 'organization': 'Neo4j', 'sentiment': 0.5}

生成的 Cypher 语句是有效的。由于没有指定具体的主题,它返回了提到 Neo4j 的最后五篇正面文章的文本块。让我们尝试一个更复杂的例子:

agent_executor.invoke(
   {"输入": "关于法国公司的员工幸福感,有哪些最新的负面新闻?"}
)

# Cypher: CYPHER runtime = parallel parallelRuntimeSupport=all 
# MATCH (c:Chunk)<-[:HAS_CHUNK]-(a:Article) WHERE 
# EXISTS {(a)-[:MENTIONS]->(:Organization)-[:IN_CITY]->()-[:IN_COUNTRY]->(:Country {name: $country})} AND 
# a.sentiment < $sentiment 
# WITH c, a, vector.similarity.cosine(c.embedding,$embedding) AS score 
# ORDER BY score DESC LIMIT toInteger($k) 
# RETURN '#标题 ' + a.title + '日期 ' + toString(a.date) + '文本 ' + c.text AS output
# 参数: {'k': 5, 'country': 'France', 'sentiment': -0.5, 'topic': '员工幸福感'}

语言模型代理正确地生成了预过滤参数,并且还识别出了一个特定的“员工幸福感”主题。这个主题被用作向量相似性搜索的输入,使我们能够进一步优化检索过程。

总结

在这篇博客文章中,我们实现了基于图的元数据过滤器的示例,以提高向量搜索的准确性。数据集拥有广泛且相互关联的选项,这允许进行更精细的预过滤查询。结合图数据表示和语言模型的函数调用功能,可以动态生成 Cypher 语句,从而为结构化过滤器提供了几乎无限的可能性。

此外,你的代理可以拥有检索非结构化文本的工具,如本文所示,以及能够检索结构化信息的其他工具,这使得知识图谱成为许多 RAG应用的理想解决方案。



Tags:数据库   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
如何使用图数据库提高向量搜索精确度?
文本嵌入和向量搜索技术可以帮助我们根据文档的含义及其相似性来检索文档。但当需要根据日期或类别等特定标准来筛选信息时,这些技术就显得力不从心。为了解决这个问题,我们可...【详细内容】
2024-04-29  Search: 数据库  点击:(0)  评论:(0)  加入收藏
向量数据库落地实践
本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见: https://github.com/vearch/zh_docs/blob/v3.3.X/do...【详细内容】
2024-04-03  Search: 数据库  点击:(15)  评论:(0)  加入收藏
如何正确选择NoSQL数据库
译者 | 陈峻审校 | 重楼Allied Market Research最近发布的一份报告指出,业界对于NoSQL数据库的需求正在持续上升。2022年,全球NoSQL市场的销售额已达73亿美元,预计到2032年将达...【详细内容】
2024-03-28  Search: 数据库  点击:(24)  评论:(0)  加入收藏
为什么数据库连接池不采用 IO 多路复用?
这是一个非常好的问题。IO多路复用被视为是非常好的性能助力器。但是一般我们在使用DB时,还是经常性采用c3p0,tomcat connection pool等技术来与DB连接,哪怕整个程序已经变成以...【详细内容】
2024-03-27  Search: 数据库  点击:(23)  评论:(0)  加入收藏
过去一年,我看到了数据库领域的十大发展趋势
作者 | 朱洁策划 | 李冬梅过去一年,行业信心跌至冰点2022 年中,红衫的一篇《适应与忍耐》的报告,对公司经营提出了预警,让各个公司保持现金流,重整团队,想办法增加盈利。这篇报告...【详细内容】
2024-03-12  Search: 数据库  点击:(40)  评论:(0)  加入收藏
让数据库和缓存数据保持一致的三种策略
如何保证缓存和数据库的一致性,这算得上是个老生常谈的话题啦,看到好多技术新人在写更新缓存数据代码,采用了非常复杂甚至“诡异”的方案,甚为不解。一、背景目前随着缓存架构方...【详细内容】
2024-02-20  Search: 数据库  点击:(46)  评论:(0)  加入收藏
MySQL数据库如何生成分组排序的序号
经常进行数据分析的小伙伴经常会需要生成序号或进行数据分组排序并生成序号。在MySQL8.0中可以使用窗口函数来实现,可以参考历史文章有了这些函数,统计分析事半功倍进行了解。...【详细内容】
2024-01-30  Search: 数据库  点击:(59)  评论:(0)  加入收藏
一篇文章,彻底理解数据库操作语言:DDL、DML、DCL、TCL
本篇文章以具体的SQL语句讲解了数据库SQL语言四大分类(数据定义语言DDL,数据操作语言DML,数据查询语言DQL,数据控制语言DCL),同时也介绍了事务控制语言TCL。最近与开发和运维讨论...【详细内容】
2024-01-30  Search: 数据库  点击:(59)  评论:(0)  加入收藏
一文读懂:什么是数据库,它到底有啥用?
提到数据库,可能很多人会很陌生。但据库其实已经渗入我们生活的方方面面,像网上购物、扫码点餐、抢红包等等应用背后都离不开数据库的支持。可以说数据库是支撑各类应用软件运...【详细内容】
2024-01-25  Search: 数据库  点击:(60)  评论:(0)  加入收藏
oracle数据库基础学习
在当今数字化时代,数据库已成为企业运营的关键要素。而Oracle数据库,作为全球领先的企业级数据库管理系统,更是备受推崇。本文将带您深入了解Oracle数据库的基础知识,帮助您从零...【详细内容】
2024-01-20  Search: 数据库  点击:(114)  评论:(0)  加入收藏
▌简易百科推荐
如何使用图数据库提高向量搜索精确度?
文本嵌入和向量搜索技术可以帮助我们根据文档的含义及其相似性来检索文档。但当需要根据日期或类别等特定标准来筛选信息时,这些技术就显得力不从心。为了解决这个问题,我们可...【详细内容】
2024-04-29    AI小智  Tags:数据库   点击:(0)  评论:(0)  加入收藏
线上MongoDB查询慢,如何通过索引优化直降响应时间?
作者 | 吴守阳审校 | 重楼背景线上某个页面的响应速度异常缓慢,达到了16秒,严重影响了业务的正常运行。经过与研发的沟通得知,该页面调用的数据集合只会保留7天的数据,集合有600...【详细内容】
2024-04-29    51CTO  Tags:MongoDB   点击:(1)  评论:(0)  加入收藏
MongoDB索引使用总结
MongoDB索引使用总结MongoDB 是目前最流行的文档型数据库。MongoDB 的采用类 json 的存储格式对开发者来说非常友好。本文梳理了 MongoDB 索引的底层结构以及使用经验,不足之...【详细内容】
2024-04-17  视角先锋队    Tags:MongoDB   点击:(0)  评论:(0)  加入收藏
向量数据库落地实践
本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见: https://github.com/vearch/zh_docs/blob/v3.3.X/do...【详细内容】
2024-04-03  京东云开发者    Tags:向量数据库   点击:(15)  评论:(0)  加入收藏
原来 SQL 函数是可以内联的!
介绍在某些情况下,SQL 函数(即指定LANGUAGE SQL)会将其函数体内联到调用它的查询中,而不是直接调用。这可以带来显著的性能提升,因为函数体可以暴露给调用查询的规划器,从而规划器...【详细内容】
2024-04-03  红石PG  微信公众号  Tags:SQL 函数   点击:(11)  评论:(0)  加入收藏
如何正确选择NoSQL数据库
译者 | 陈峻审校 | 重楼Allied Market Research最近发布的一份报告指出,业界对于NoSQL数据库的需求正在持续上升。2022年,全球NoSQL市场的销售额已达73亿美元,预计到2032年将达...【详细内容】
2024-03-28    51CTO  Tags:NoSQL   点击:(24)  评论:(0)  加入收藏
为什么数据库连接池不采用 IO 多路复用?
这是一个非常好的问题。IO多路复用被视为是非常好的性能助力器。但是一般我们在使用DB时,还是经常性采用c3p0,tomcat connection pool等技术来与DB连接,哪怕整个程序已经变成以...【详细内容】
2024-03-27  dbaplus社群    Tags:数据库连接池   点击:(23)  评论:(0)  加入收藏
八个常见的数据可视化错误以及如何避免它们
在当今以数据驱动为主导的世界里,清晰且具有洞察力的数据可视化至关重要。然而,在创建数据可视化时很容易犯错误,这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可...【详细内容】
2024-03-26  DeepHub IMBA  微信公众号  Tags:数据可视化   点击:(16)  评论:(0)  加入收藏
到底有没有必要分库分表,如何考量的
关于是否需要进行分库分表,可以根据以下考量因素来决定: 数据量和负载:如果数据量巨大且负载压力较大,单一库单一表可能无法满足性能需求,考虑分库分表。 数据增长:预估数据增长...【详细内容】
2024-03-20  码上遇见你  微信公众号  Tags:分库分表   点击:(28)  评论:(0)  加入收藏
在 SQL 中写了 in 和 not in,技术总监说要炒了我……
WHY?IN 和 NOT IN 是比较常用的关键字,为什么要尽量避免呢?1、效率低项目中遇到这么个情况:t1表 和 t2表 都是150w条数据,600M的样子,都不算大。但是这样一句查询 &darr;select *...【详细内容】
2024-03-18  dbaplus社群    Tags:SQL   点击:(22)  评论:(0)  加入收藏
站内最新
站内热门
站内头条