今天,我们来聊一聊计算机视觉,也就是CV(Computer Vision)。
CV是一种让计算机“看懂”图片和视频的技术。人类通过眼睛来感知环境,而CV就是让计算机可以模仿人的视觉系统,通过给计算机安装上眼睛(摄像机)和大脑(算法)来感知环境,让它可以识别和理解图像中的对象、人脸、文字、场景等。
尽管CV技术已经相对成熟,并在众多领域得到广泛应用,但处理复杂图像和场景仍然具有一定的技术难度。
以光学字符识别(OCR)为例,OCR是一项将图像中的字符识别并转换为文字的任务。听起来很简单,但实际应用中,由于图像的复杂性、视觉的多样性、数据质量等因素,字符识别的准确率很难保证。
例如,在卷烟32位喷码识别中,由于卷烟盒背景复杂且常有反光现象,再加上喷码可能存在刮涂、模糊、扭曲等问题,肉眼识别很困难且费力。此时,OCR技术就派上了用场。
传统的通用OCR识别通常包括图像输入、预处理、文字提取和文字识别等步骤,其核心在于通过预处理和文字提取将图像中的文本与背景分离,以便进行后续的文字识别。这种方法更适用于简单的印刷体字符识别,无法处理复杂背景,因此32位喷码的单字识别准确率仅为50-80%。
而迦百农AI的专卖稽查智能辅助设备通过自研OCR算法解决了这一问题。针对卷烟专用喷码特点设计深度神经网络模型,利用业内唯一的全光谱色灯与多波段双折射滤光技术,适应各种复杂的背景和光照条件,自匹配最优灯光,突出文本区域,省去了传统OCR技术中的繁琐预处理和文字提取步骤,将整个识别流程简化为“图像输入→文字检测→文字识别”,直接定位并识别文本,实现卷烟32位喷码识别准确率99.98%。
在物流面单识别方面,迦百农AI物流面单识别系统通过训练基于元学习的复杂场景识别模型,能够快速捕获面单图像,利用深度学习算法定位和分割文字区域,识别单个字符,并对字符进行校验、格式化和语义理解,确保输出数据的准确性和完整性,实现2秒内智能提取物流面单信息,识别不同厂商的不同格式、不同字体的文本信息。即使面对字体磨损或打印不清晰的问题,仍能保持95%的高识别率。
迦百农AI在OCR领域实现了算法领先和高识别准确率,得益于对计算机视觉的深入研究及商业应用的丰富经验。公司专注于研究复杂场景下多模态、多任务通用人工智能技术,独立研发了高度自主化、可信赖的视觉预训练大模型(VPLM),通过接入特定场景的专用数据集进行训练调优,生成满足各类场景需求的定制化模型,保证了产品的独特性和竞争力。
随着CV技术的不断进步,迦百农AI也将在更多领域带来突破性的解决方案,推动智能化转型。