们先聊聊中文OCR的发展历程:
国家863计划信息领域课题组织了清华大学、北京信息工程学院、沈阳自动化所三家单位联合进行中文OCR软件的开发工作。至1989年,清华大学率先推出了国内第一套中文OCR软件--清华文通TH-OCR1.0版,至此中文OCR正式从实验室走向了市场。
清华OCR印刷体汉字识别软件其后又推出了TH-OCR 92高性能实用简/繁体、多字体、多功能印刷汉字识别系统,使印刷体汉字识别技术又取得重大进展。
到1994年推出的TH-OCR 94高性能汉英混排印刷文本识别系统,则被专家鉴定为“是国内外首次推出的汉英混排印刷文本识别系统,总体上居国际领先水平”。
上个世纪90年代中后期,清华大学电子工程系提出并进行了汉字识别综合研究,使汉字识别技术在印刷体文本、联机手写汉字识别、脱机手写汉字识别和脱机手写数字符号识别等领域全面地取得了重要成果。具有代表性的成果是TH-OCR 97综合集成汉字识别系统,它可以完成多文种(汉、英、日)印刷文本、联机手写汉字、脱机手写汉字和手写数字的识别输入。
2003年,移动端的OCR应用开始普及(OCR识别SDK挂接App);到2006年,随着APP数量的增多,移动端OCR应用迎来爆发式增长。这时候,市场也逐渐明朗起来,北京文通科技的市场占有率始终第一。
OCR识别技术的门槛其实很低,现在网上都出现开源的OCR识别数据库来了。可真正涉及OCR领域的公司也就那么几家,屈指可数。这是为什么呢?因为要做到识别率和识别速度达到理想要求,你需要作大量的机器深度学习的工作。这是一件庞大的工程。
现在,很多企业也对OCR领域虎视眈眈,跃跃欲试。有目前还算成功的,当然是窃取技术了(在这里我就不提是谁了)。但真正的,你想要成为一家伟大的公司,是永远需要把技术放在第一位的,你得有庞大的研发能力。像那种投机取巧,赚机会钱的公司,是不值得我们尊重的。
我相信,经过五年、十年、甚至是上百年。市场会做出筛选。真正留下来的,能为OCR识别行业作出贡献的,只能是我们文通这样的老企业,因为我们始终秉持技术至上的理念,在OCR领域更应如此。