用于提取数据的三个开源NLP工具

时间：2023-07-28 19:35:24 来源：51CTO 作者：

译者 | 布加迪

审校 | 重楼

开发人员和数据科学家使用生成式AI和大语言模型（LLM）来查询大量文档和非结构化数据。开源LLM包括Dolly 2.0、EleutherAI Pythia、Meta AI LLaMa和StabilityLM等，它们都是尝试人工智能的起点，可以接受自然语言提示，生成总结式响应。

Fluree首席执行官兼联合创始人Brian Platz说：“作为知识和信息的基本来源，文本很重要，但目前还没有任何端到端解决方案可以驾驭处理文本的复杂性。虽然大多数组织处理结构化或半结构化数据、放到集中式数据平台上，但非结构化数据仍然被遗忘，未充分利用起来。”

如果贵组织和团队没有试用自然语言处理（NLP）功能，可能落后于所在行业的竞争对手。2023年专家NLP调查报告发现，77%的组织表示计划增加NLP方面的支出，54%的组织声称部署到生产环境的时间是衡量成功NLP项目的投资回报率的首要指标。

NLP的用例

如果您有大量非结构化数据和文本，那么一些最常见的业务需求包括如下：

通过识别名称、日期、地点和产品，提取实体；
模式识别，以发现货币及其他数量；
对业务术语、主题和分类分门别类；
情绪分析，包括积极的、负面的和讽刺的情绪；
总结文件要点；
机器语言翻译成其他语言；
将文本转换成机器可读的半结构化表示的依赖关系图。

有时候，将NLP功能捆绑到平台或应用程序中是可取的。比如说，LLM支持提问，AI搜索引擎支持搜索和推荐，聊天机器人支持交互。而其他时候，使用NLP工具提取信息以及丰富非结构化文档和文本是最佳选择。

不妨看看开发人员和数据科学家如今使用这三种流行的开源NLP工具，可用于针对非结构化文档执行发现操作，并开发生产就绪的NLP处理引擎。

1. 自然语言工具包

自然语言工具包（NLTK）于2001年发布，是较悠久且较流行的NLP Python/ target=_blank class=infotextkey>Python库之一。NLTK在Github上拥有超过1.18万颗星，列有100多个经过训练的模型。

SPR的数据和分析主管Steven Devoe说：“我认为对于NLP来说，最重要的工具是自然语言工具包（NLTK），它采用了Apache 2.0许可证。在所有的数据科学项目中，处理和清理算法所使用的数据耗用了大量的时间和精力，这在自然语言处理中尤为如此。NLTK加快了这方面的许多工作，比如词干提取、词源化、标记、删除停止词以及跨多种书面语言嵌入词向量，从而使算法更容易解释文本。”

NLTK的优点源于其耐久性，它为刚接触NLP的开发人员提供了许多示例，比如这份初学者实践指南和这个更全面的概述。任何学习NLP技术的人都可能想先试一下这个库，因为它提供了简单的方法来尝试基本技术，比如标记化、词干提取和分块。

2.spaCy

spaCy是一个较新的库，2016年发布了版本1.0。spaCy支持72余种语言，已发布了其性能基准，它在GitHub上积累的星数超过了25000颗。

Domino数据实验室欧洲中东和非洲（EMEA）地区的数据科学主管Nikolay Manchev说：“spaCy是免费的开源Python库，提供了对大量文本进行高速自然语言处理的高级功能。使用spaCy，用户就可以构建模型和生产级应用程序，它们支持文档分析、聊天机器人功能和所有其他形式的文本分析。如今，spaCy框架是Python最流行的自然语言库之一，用于从文本中提取关键字、实体和知识等行业用例。”

spaCy教程显示了NLTK类似的功能，比如命名实体识别和词性标注。一个优点是，spaCy返回文档对象，并支持词向量，这可以为开发人员执行额外的NLP后数据处理和文本分析赋予更大的灵活性。

3.Spark NLP

如果您已经使用Apache Spark并配置了其基础设施，那么Spark NLP可能是开始尝试自然语言处理的更便捷途径之一。Spark NLP有几个安装选项，包括AWS、Azure Databricks和Docker。

John Snow Labs的首席技术官David Talby说：“Spark NLP是一个广泛使用的开源自然语言处理库，它使企业能够以最高的精度从自由文本文档中提取信息和答案。因此企业可以提取只存在于临床记录中的相关健康信息，识别社交媒体上的仇恨言论或虚假新闻，或概述法律协议和财经新闻。”

Spark NLP的不同之处在于其是适用于医疗、金融和法律领域的语言模型。这些商业产品配备了预先训练的模型，用于识别医疗领域的药物名称和剂量、金融实体识别（比如股票行情信息）以及公司名称和高管的法律知识图谱。

Talby表示，Spark NLP可以帮助组织尽量减少开发模型所需的前期训练。他说：“这个免费开源库附带超过11000个预训练的模型，外加重用、训练、调优和轻松扩展模型的功能。”

试用NLP的最佳实践

我在职业生涯的早期有幸监督过开发几个使用NLP功能构建的SaaS产品。第一个NLP是一个搜索报纸分类广告的SaaS平台，包括搜索汽车、工作和房地产。然后，我领导开发了用于从商业建筑文件（包括建筑规格和蓝图）中提取信息的NLP。

在一个新领域开始入手NLP时，我的建议如下：

从文档或文本的一个代表性的小例子入手。
确定目标最终用户角色以及提取的信息如何改进他们的工作流程。
指定所需的信息提取和目标准确性指标。
测试几种方法，使用速度和准确性指标进行基准衡量。
反复提高准确性，尤其是在增加文档的规模和广度时。
准备交付用于处理数据质量和处理异常的数据管理工具。

您可能会发现用于发现和试用新型文档的NLP工具将有助于界定需求。然后，扩大NLP技术的比较范围，涵盖开源方案和商业方案，因为构建和支持生产就绪的NLP数据管道可能成本高昂。随着LLM日益备受关注，对NLP功能方面投入不足会导致落后于竞争对手。幸运的是，您可以从本文介绍的其中一款开源工具入手，构建NLP数据管道，以满足自己的预算和需求。

原文标题：3 open source NLP tools for data extraction，作者：Isaac Sacolick

Tags：NLP工具点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

用于提取数据的三个开源NLP工具

译者 | 布加迪审校 | 重楼开发人员和数据科学家使用生成式AI和大语言模型（LLM）来查询大量文档和非结构化数据。开源LLM包括Dolly 2.0、EleutherAI Pythia、Meta AI LLaMa和Sta...【详细内容】

2023-07-28　　Search: NLP工具点击:(247)　　评论:(0)　　加入收藏

▌简易百科推荐

Telegram怎么不显示在线？

在Telegram中，您可以通过进入“设置” -> “隐私与安全” -> “最后在线时间”，然后选择“没有人”或者自定义特定的人群，以隐藏自己的在线状态。这样设置后，其他用户将无法看到...【详细内容】

2024-04-04　　HouseRelax　　　　Tags:Telegram 　点击:(2)　　评论:(0)　　加入收藏

谷歌 Gmail 新规生效：为遏制钓鱼 / 欺诈情况，日群发超 5000 封邮件账号需验证

IT之家 4 月 2 日消息，谷歌为了增强对垃圾邮件和网络钓鱼攻击的管控，今天宣布正式启用新措施：对于向 Gmail 邮箱账号日群发数量超过 5000 封的用户，需要其在域名中设置 SPF / DK...【详细内容】

2024-04-02　　　　IT之家　　Tags:Gmail 　点击:(10)　　评论:(0)　　加入收藏

钉钉AI升级多模态：能根据图片识人、翻译、创作、多轮问答

新浪科技讯 3月28日午间消息，钉钉AI助理迎来升级，上线图片理解、文档速读、工作流等产品能力，探索多模态、长文本与RPA技术在AI应用的落地。基于阿里通义千问大模型，升级后的钉...【详细内容】

2024-03-28　　　　新浪科技　　Tags:钉钉　点击:(12)　　评论:(0)　　加入收藏

都2024年了，谁还在用QQ聊天啊？

你还在用 QQ 吗？之所以突然这么问，是因为前些天腾讯发了份热气腾腾的财报。随手翻了翻，发现 QQ 这个老企鹅，居然还有5.54 亿多人每个月都在坚持登录。虽说和辉煌时候没法比了，但...【详细内容】

2024-03-26　　　　差评　　Tags:QQ 　点击:(8)　　评论:(0)　　加入收藏

腾讯QQ浏览器工具权益卡上线PC端，每月最低6元

IT之家 1 月 29 日消息，腾讯 QQ 浏览器此前在手机端上线工具权益卡，现将部分权益适用范围拓展至 PC 端，每月 10 元，连续包月为 6 元。开通后用户可以在 QQ 浏览器软件内享有由腾...【详细内容】

2024-01-29　　　　IT之家　　Tags:QQ浏览器　点击:(74)　　评论:(0)　　加入收藏

开源工具Ventoy更新：新增对FreeBSD 14.0的支持

近日，开源装机工具Ventoy发布了1.0.97版本的更新。本次更新的主要亮点是新增了对FreeBSD 14.0版本的支持，并修复了启动问题以及解决了几个Linux独有的bug等。同时，官方还修复了...【详细内容】

2024-01-25　　　　中关村在线　　Tags:Ventoy 　点击:(38)　　评论:(0)　　加入收藏

微软Copilot Pro来了：个人用户也能在Word里用GPT-4，20美元/月

面向个人用户的微软Copilot会员版来了。一个月多交20刀（约合人民币142元），Microsoft 365个人版/家庭版用户就能在Word、Excel、PPT等Office全家桶中用上GPT-4。就像这样，不用在C...【详细内容】

2024-01-16　　　　量子位　　Tags:Copilot Pro 　点击:(89)　　评论:(0)　　加入收藏

微软 Edge 浏览器支持双引擎同时搜索功能，便利与槽点并存

IT之家 1 月 15 日消息，微软广告和网络服务部门首席执行官 Mikhail Parakhin 近日透露了一个微软 Edge 浏览器的隐藏功能：双引擎同时搜索。顾名思义，该功能允许用户同时使用两...【详细内容】

2024-01-16　　　　IT之家　　Tags:Edge 　点击:(61)　　评论:(0)　　加入收藏

11个面向设计师的必备AI工具

译者 | 布加迪审校 | 重楼在当今快速发展的设计领域，人工智能（AI）工具已成为不可或缺的创新催化剂。这些工具专门用于提高效率和创造力，从而重新定义传统的设计方法。AI正在彻底...【详细内容】

2024-01-09　　　　51CTO　　Tags:AI工具　点击:(92)　　评论:(0)　　加入收藏

钉钉与微软中国达成合作，将推钉钉Office套件，每人每月35元

IT之家 1 月 9 日消息，今日在钉钉 7.5 产品发布会上，钉钉正式宣布与微软中国达成产品级合作，将推出钉钉 Office 套件，集成包括 Word、Excel、PowerPoint 在内的产品。根据合作协...【详细内容】

2024-01-09　　　　IT之家　　Tags:钉钉　点击:(83)　　评论:(0)　　加入收藏

推荐资讯

AI是万灵药？Meta要把大	考研调剂第一次失败后
高职单招是什么意思？	在饭局上喝酒，要学会3
汽车不停能开多少公里	三证齐全，中国“飞的”
小米SU7被大卸八块，雷	视频号，从抖音挖来一个