您当前的位置：首页 > 电脑百科 > 人工智能

大模型时代的下OCR，“CPU味道”更重了

时间：2023-07-07 13:35:17 来源：51CTO 作者：

+ 加入收藏

来源：量子位作者：金磊、杨净

经典技术OCR（光学字符识别），在大模型时代下要“变味”了。

怎么说？

我们都知道OCR这个技术在日常生活中已经普及开了，像各类文件、身份证、路标等识别，可以说统统都离不开它。

而随着近几年大模型的不断发展，OCR也迎来了它的“新生机”——

凭借自身可以将文本从图片、扫描文档或其他图像形式提取出来的看家本领，成为大语言模型的一个重要入口。

在这个过程中，一个关键问题便是“好用才是硬道理”。

过去人们会普遍认为，像OCR这种涉及图像预处理、字符分割、特征提取等步骤的技术，堆GPU肯定是首选嘛。

不过朋友，有没有想过成本和部署的问题？还有一些场景甚至连GPU资源都没得可用的问题？

这时又有朋友要说了，那CPU也不见得很好用啊。

不不不。

现在，大模型时代之下，CPU或许还真是OCR落地的一种新解法。

例如在医保AI业务中，在CPU的加持之下，医疗票据识别任务的响应延时指标，在原有基础上提升达25倍！

为什么会有如此大的转变？

一言蔽之，因为此前做OCR任务的时候，CPU的计算潜能并没有完全释放出来。

OCR，进入CPU时代

那么到底是谁家的CPU，能让经典OCR产生这般变化。

不卖关子。

它正是来自英特尔的第四代至强® 可扩展处理器。

据了解，第四代至强® 可扩展处理器增加了每个时钟周期的指令，每个插槽多达60个核心，支持8通道DDR5内存。

在内存宽带方面实现了50%的性能提升，并通过每PCIe 5.0（80个通道）实现了2倍的PCIe带宽提升，整体可实现60%的代际性能提升。

但解锁如此能力的，可不仅仅是一颗CPU这么简单，是加成了英特尔软件层面上的优化；换言之，就是“软硬一体”后的结果。

而且这种打法也不是停留在PPT阶段，而是已经实际用起来的那种。

例如国内厂商用友便在自家OCR业务中采用了这种方案。

性能比较上，用友在第三/第四代英特尔® 至强® 可扩展处理器上进行了算法对比，推理性能提升达优化前的3.42倍：

而在INT8量化后的性能更是提升到原来的7.3倍：

值得一提的是，OCR的响应时间直接降低到了3秒以内，还是切换架构不影响业务，用户无感知的那种。

除了用友之外，像亚信科技在自家OCR-AIRPA方案中，也是采用了英特尔的这套打法。

与用友类似的，亚信科技实现了从FP32到INT8/BF16的量化，从而在可接受的精度损失下，增加吞吐量并加速推理。

从结果上来看，人工成本降至原来的1/5-1/9，效率还提升约5-10倍。

由此可见，释放了AI加速“洪荒之力”的CPU，在OCR任务上完全不亚于传统GPU的方案。

那么问题来了：

英特尔是如何释放CPU计算潜力的？

实际应用过程中，企业通常选择自己使用CPU来做OCR处理，但由于缺乏对CPU硬件加速和指令集的了解，就会发现CPU处理性能与理想峰值相差甚远，OCR程序也就没有得到很好的优化。

至于以往更常见的GPU解决方案，始终存在着成本和部署的难题。一来成本通常较高，且很多情况下，业务现场没有GPU资源可以使用。

但要知道OCR本身应用广泛、部署场景多样，比如公有云、私有云，以及边缘设备、终端设备上……而且随着大模型时代的到来，作为重要入口的OCR，更多潜在场景将被挖掘。

于是，一种性价比高、硬件适配性强的解决方案成为行业刚需。

既然如此，英特尔又是如何解决这一痛点的呢？

简单归结：第四代至强®️ 可扩展处理器及其内置的AI加速器，以及OpenVINO™️ 推理框架打辅助。

当前影响AI应用性能的要素无非两个：算力和数据访问速度。第四代至强®️ 可扩展处理器的单颗CPU核数已经增长到最高60核。

而在数据访问速度上，各级缓存大小、内存通道数、内存访问速度等都有一定程度的优化，另外部分型号还集成了HBM高带宽内存技术。

此外，在CPU指令集上也做了优化，内置了英特尔®️ 高级矩阵扩展（英特尔®️ AMX）等硬件加速器，负责矩阵计算，加速深度学习工作负载。

这有点类似于GPU里的张量核心（Tensor Core）。

AMX由两部分组成，一部分是1kb大小的2D寄存器文件，另一部分是TMUL模块，用来执行矩阵乘法指令。

它可同时支持INT8和BF16数据类型，且BF16相较于FP32计算性能更优。

有了AMX指令集加持，性能比矢量神经网络指令集VNNI增加达8倍。

除了核心硬件平台外，实际情况中帮助OCR在CPU上落地的，还有推理框架OpenVINO™️。

市面上大部分AI框架都是同时支持训练和推理，OpenVINO™️ 则是删减了很多训练部分所需的冗余计算，主要支持推理部分。

而且也是专门针对英特尔硬件打造的优化框架。框架替换也不复杂，只需5行代码就可以完成原有框架的替换。

用户可以针对不同业务场景，来优化OpenVINO™️ 运行参数。

比如用友OCR业务涉及文字检测和文字识别两个AI模型，优化方向有所不同。

前者对单次推理要求高，后者需要整个系统吞吐量的优化，那么OpenVINO™️ 分别采用单路同步模式和多路异步模式。单一模块优化后，再针对整体流程的优化。

这样一套软硬件组合拳打下来，英特尔充分释放了CPU计算潜力，在实际场景中也实现了与GPU同等性能。

不再是你以为的CPU

以往谈到AI加速、AI算力，大众经常想到的就是GPU，又或者是专用TPU。

至于通用架构芯片CPU，受到计算单元和内存带宽的限制，始终无法适应于计算数据庞大的深度学习。

但现在的CPU，已经不再是“你以为的你以为”了：

它可以深入到各个行业当中，轻松Hold住各种场景应用。

尤其在AMX加速引擎加持下，能将深度学习训练和推理性能提升高达10倍。

比如，媒体娱乐场景中，能帮助个性化内容推荐速度提升达6.3倍；零售行业里，能将视频分析速度提升高达至2.3倍，还有像工业缺陷检测、医疗服务也都能从容应对。

即便是在前沿探索领域，CPU也已经成为不容忽视的存在：

像是在生命科学和医药方向，在某些场景下的表现效果甚至比GPU还要好。

英特尔用CPU速刷AlphaFold2，结果力压AI专用加速芯片，去年发布的第三代至强®️ 可扩展处理器经过优化后就能使其端到端的通量足足提升到了原来的23.11倍。今年基于第四代至强®️ 可扩展处理器再次把性能提升到了上一代产品的3.02倍。

不过要实现CPU加速，背后也并非简单的硬件优化。

而是软硬件融合协同，从底层到应用的一整套技术创新，以及产业链上合作伙伴的支撑。

随着大模型时代的到来和深入，这种解决思路也正在成为共识。

像一些大模型玩家要实现大模型优化和迭代，并不能依靠以往单纯三驾马车来解决，而是需要从底层芯片到模型部署端到端的系统优化。

在算力加速层面的玩家，一方面摆脱不了摩尔定律的极限，另一方面要在应用场景中充分释放计算潜力，就需要与软件适配快速部署。

有意思的是，在最近OCR主题的《至强实战课》中，英特尔人工智能软件架构师桂晟曾这样形容英特尔的定位：

>英特尔不仅仅是一个硬件公司，同时也拥有着庞大的软件团队。

>在整个人工智能生态中，不论是从底层的计算库，到中间的各类组件，框架和中间件，再到上层的应用，服务和解决方案都有英特尔软件工程师的参与。

CPU加速，不再是你以为的加速。英特尔，也不再是以往所认知中的硬件公司。

但如果你以为英特尔只有CPU来加速AI，那你又单纯了。

针对AI的专用加速芯片Habana®️ Gaudi 2®️ 即将迎来首秀；

而通用加速芯片，同时兼顾科学计算和AI加速的英特尔®️ 数据中心GPU Max系列也刚刚结束了它在阿贡实验室Aurora系统中的部署，即将走近更多客户。

以这些多样化、异构的芯片为基石，英特尔也将形成更全面的硬件产品布局，并配之以跨异构平台、易用的软件工具组合（oneAPI）为整个应用链上的合作伙伴及客户提供应用创新的支持，为各行各业AI应用的开发、部署、优化和普及提供全方位支持。

Tags：OCR 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

学术党狂喜，Meta推出OCR神器，PDF、数学公式都能转

机器之心报道编辑：陈萍、梓文有了 Nougat，再也不用怕复杂的数学公式了。我们平时在阅读论文或者科学文献时，见到的文件格式基本上是 PDF（Portable Document Format）。据了解，PDF...【详细内容】

2023-08-30　　Search: OCR 点击:(330)　　评论:(0)　　加入收藏

快速了解 EasyOCR 文字识别框架及应用

EasyOCREasyOCR 是一个开源的光学字符识别（OCR）工具，可以用于将图像中的文本转换为可编辑的文本。它基于深度学习技术实现，并且具有以下特点。开源免费：EasyOCR 是一个开源框架，...【详细内容】

2023-08-07　　Search: OCR 点击:(300)　　评论:(0)　　加入收藏

大模型时代的下OCR，“CPU味道”更重了

来源：量子位作者：金磊、杨净经典技术OCR（光学字符识别），在大模型时代下要“变味”了。怎么说？我们都知道OCR这个技术在日常生活中已经普及开了，像各类文件、身份证、路标等识别，可...【详细内容】

2023-07-07　　Search: OCR 点击:(250)　　评论:(0)　　加入收藏

如何使用Python中的OCR技术将图像中的文本提取为可编辑文件？

在Python中，可以使用多种库和工具来识别图片中的文本。其中，比较常用的是Tesseract OCR和Pytesseract库。下面将介绍如何使用Python和Pytesseract库来识别图片中的文本，并将其...【详细内容】

2023-05-18　　Search: OCR 点击:(272)　　评论:(0)　　加入收藏

几款开源的OCR识别项目，收藏备用

随着科技的发展，OCR场景随处可见，很多APP也集成如身份证识别，银行卡识别的功能，包括微信都支持截图文件中的文字提取。现在，各大厂商均有提供各种场景的OCR识别的API。但是，有时候...【详细内容】

2023-03-17　　Search: OCR 点击:(592)　　评论:(0)　　加入收藏

完全免费，不用联网，这套OCR工具比微信的还好用

说实话，这应该是微信 10 年来推出的最实用功能之一了。在微信里收到的图片，也支持你直接选取文字复制。除了功能实用，另一方面，微信早已成了电脑上必装软件，微信截图也是很多人默...【详细内容】

2022-11-30　　Search: OCR 点击:(378)　　评论:(0)　　加入收藏

windows下安装Tesserocr

Tesserocr 是 Python 的一个 OCR 识别库，但其实是对Tesseract 做的一层 Python API 封装，所以它的核心是 Tesseract，所以在安装 Tesserocr 之前我们需要先安装 Tesseract，本节我...【详细内容】

2022-11-08　　Search: OCR 点击:(346)　　评论:(0)　　加入收藏

身份证OCR识别是什么？

这些年，随着移动互联网的的发展，越来越多的企业都推出了自己的移动APP，这些APP多数都涉及到个人身份证信息的输入认证（即实名认证），如果手动去输入身份证号码和姓名，速度非常慢，且用...【详细内容】

2022-08-12　　Search: OCR 点击:(324)　　评论:(0)　　加入收藏

使用Python和OCR进行文档解析的完整代码演示

在本文中将使用Python演示如何解析文档(如pdf)并提取文本，图形，表格等信息。文档解析涉及检查文档中的数据并提取有用的信息。它可以通过自动化减少了大量的手工工作。一种流...【详细内容】

2022-07-19　　Search: OCR 点击:(448)　　评论:(0)　　加入收藏

如何使用 Java 对收据的照片执行 OCR

本文的目的是演示一个专门设计用于对收据照片执行OCR（光学字符识别）操作并自动从中提取关键业务信息的 API，例如企业名称和地址、电话号码、收据总额等等。在页面的下方，我提供...【详细内容】

2022-07-15　　Search: OCR 点击:(586)　　评论:(0)　　加入收藏

▌简易百科推荐

行业大模型快速落地的一年，如何做？

生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看，无论是“文生文”的大语言模型，还是“文生图”的多模态模型，更多的是辅助人们进行一些简单的办公，或者提供一...【详细内容】

2024-04-10　　　　钛媒体APP　　Tags:行业大模型　点击:(3)　　评论:(0)　　加入收藏

互联网充斥“针对小白的AI课”，能相信吗？普通人不学AI课程会被淘汰？

早前，一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主，向用户大力推介“所有人都需要学”的AI入门课程。不过，这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】

2024-04-10　　　　九派新闻　　Tags:AI课　点击:(5)　　评论:(0)　　加入收藏

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(2)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(3)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(6)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(3)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(5)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(6)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

推荐资讯

保险资金重仓股陆续揭	统计局解读3月份CPI和
万亿赛道“低空经济”	美联储透露重磅信号，酝
央行、证监会、财政部	证监会：推动注册制走深
大幅回暖！全国天气冲击	国家统计局：3月份居民

站内最新

栏目相关

· 行业大模型快速落地的一年，如何做？

· 互联网充斥“针对小白的AI课”，能相信吗？普通人不学AI课程会被淘汰？

· 藏在AI背后的“吃电狂魔”

· OpenAI和谷歌再起纷争：AI的尽头是内容

· AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

· 和“数字人”交朋友，当心隐私被出卖......

· AI“复活”成产业链：成本可降至数百元

· 多方热议人工智能产业新机遇

· 人形机器人时代来了吗

· AI重塑社交：腾讯与字节跳动的新赛场

· 第一批用 Kimi 做内容的网红已经杀疯了

· 昆仑万维发布面向人工智能时代的六条人才宣言

· AI干掉声优？音频大模型追逐“图灵时刻”

· 生成式人工智能有哪些新趋势？

· AI世界的新难题：互联网的信息不够用了！

· 今天起，ChatGPT无需注册就能用了！

· AI时代，面对死亡有了第二种选择？

· 影视业AI应用如何超乎想象？

· 当AI会作词作曲唱歌，音乐人何去何从

· 大模型Kimi火了，长文本“卷”出新高度

站内热门