12306验证码为什么那么变态？都是这项深度学习应用给逼的

时间：2020-06-30 14:39:18 来源：作者：

导读：12306为什么要设置那么复杂的验证码机制呢？就是因为OCR。

今天聊OCR。

OCR是人工智能、机器学习特别是深度学习，在图像识别方向最为重要的应用之一。OCR全称Optical Chararcter Recogition，中文翻译为光学字符识别，通常简写为OCR。

作者：莫凡

来源：华章科技

如果之前没有接触过OCR，光看名字上又光学又识别的，容易产生“听起好像很高端很复杂”的距离感，但实际上，计算机科学的每一项技术都是为了机器具备多一项技能，而OCR要机器具备的，是一项对于我们人来说属于最最基本的技能——“看图识字”。

我们可能对这个能力习以为常了，以至于不会觉得这算是一项能力，但仔细想一想就知道，看图识字虽然最最基本，不过同样也最最基础，很多工作都需要首先具备看图识字这项技能才能开展。同样的道理，OCR现在也已经是我们日常生活中应用最为广泛的智能技术之一。

如果一时没想起来，不妨从咱们中国人都很熟悉的春运说起。12306大家应该都知道，是订火车票的官方网站，2015年12306出了一个轰动全国的“大新闻”，12306改变“验证码机制”了。买火车票之前，用户先得要做几道颇为棘手的智力题，譬如要求在几张图片中找出某位名人，据说有些用户因为知识面比较窄最后选择放弃了购买火车票。

这事大家都知道，不过有没有想过一个最基本的问题：12306为什么要改变验证码机制呢？

就是因为OCR。

▲网友恶搞的12306验证码

验证码之所以叫验证“码”，是因为最开始验证码大都是一串保存在图片里的四位数字。验证码的作用自然是区别真人和机器，听起来很厉害，其实原理异常简单：机器擅长处理结构化数据，而对于图像、文本和音频这些生活中很常见但属于非结构化的数据，对机器来说，用传统的算法处理难度非常大。

为什么呢？不妨想象一个最最传统的验证码，白底黑字，上面一共四个阿拉伯数字，我们人自然看一眼就知道是哪四个数字。但是在机器看起来，这张图片是由一个挨一个的像素数值构成的数据矩阵，这就产生一个问题，我们人看起来是“空白”的地方，在机器看起来同样也存在着数字，并没有什么不同，自然无法区分到底上面写了什么。

OCR的研究人员当然也没有偷懒，努力尝试了很多办法，有一种思路是提取图片特征，也研究出两种传统的提取方法，分别是基于结构形态的特征提取，和基于几何分布的特征提取，也取得一些成果。

但总的来说，要求机器准确识别图片中的数字仍然很困难，只要图片中存在一点点杂质干扰，识别的正确率就大幅度下降，这就是为什么后来验证码都会选择采用一些随机线条，对于OCR来说，这都是低成本高收益的防破解手段。但对人来说却轻而易举，只需要看一眼就能识别。

正是因为人和机器在处理非结构化数据存在能力鸿沟，在验证码这里，就是人和机器在识别图片中字符上的能力存在显著差异，因此，只要简单使用验证码，就能相当准确地辨别正在输入的究竟是人还是机器。

那为什么12306在2015年就非得换了很好用的验证码机制呢？是因为就在2012年，发生了一件轰动整个研究界的事件，这个事件影响深远，推动OCR技术发生飞跃，从此机器也能很轻易就准确识别图片上的数字了。

OCR并不是新出现的概念，起步非常早。根据《深度实践OCR：基于深度学习的文字识别》一书介绍，早在1929年，德国科学家就已经提出了OCR的想法，后续又有一些科学家加入进行这方面研究，不过，直到计算机出现以后，想法才慢慢落地。

相比之下，中国对OCR的研究起步稍晚，起步于70年代，算起来也有近50年的历史了。

但是，虽然早就开始了对OCR的研究，科学家们也从各个方面贡献了很多颇有益处的奇思妙想，为后续研究奠定了坚实基础，但总的来说，OCR技术的应用发展迟缓，直到前些年仍然处于学术研究的领域。不过，每一项科研领域的僵局都最终会被一项划时代的技术打破，打破OCR领域僵局的就是鼎鼎大名的深度学习技术。

2012年发生了什么事呢？发生了这么一件事，基于深度学习的卷积网络模型AlexNet，在ImageNet图像分类比赛中拔得头筹。拔得头筹这事本身不算什么，毕竟只要有比赛就一定会有人拔得头筹，问题是在以往的比赛，不同模型之间的差距很小，第一名都是“险胜”，第二名都是“惜败”。

而到了2012年，AlexNet不但赢了第一名，而且在识别准确率方面超过第二名10%，相当于百米短跑我第一名冲线，而且我不但冲线了，我还在终点吃了顿饭，然后第二名才刚刚跑完全程。这种碾压式的胜利让业界对这场赛事的评论纷纷变成了B站的弹幕，概括来说就一句话：大人，时代变了。

当然了，前面这段讲得很戏剧化，也有很多人喜欢用“石破天惊”之类的词来形容，但应该说，深度学习并不是什么凭空出现的新技术，它是由机器学习下面的神经网络模型发展而来的。

人工智能、机器学习和深度学习三者之间千丝万缕的关系，我们在前面的文章已经进行了细致的介绍，不再赘述，但深度学习的崛起，确实给OCR的应用注入了全新的活力。

深度学习很快火遍全球，有意思的是，很多面向初学者的深度学习教程不约而同选择了将使用深度学习模型识别MNIST手写数据集作为深度学习领域的“Hello World”，从前极为困难的验证码识别，在深度学习时代居然变成了初学者的第一堂功课，这是深度学习与OCR结合最为成功的案例。从此，OCR展翅飞出象牙塔，飞入寻常百姓家。

不过，我还是想特别说明一下，OCR是一项通用性非常强的技术，OCR与深度学习的结合逼得12306改验证码机制，这只是OCR技术的能力展示，OCR活跃的天地远比验证码广阔得多，我们的机器距离我们的生活差的最后一公里，可能就有赖OCR来打通。

你可能会问，机器和生活还差最后一公里，我怎么没感觉到，这是什么意思？

回想一下，我们现在的生活其实是有两套并行记录体系，就拿最常见的去银行办理业务来说吧，我们先得用笔手工填写一份纸质的表格，上面包含了各项信息，这是一套记录体系。然后我们给银行柜台的工作人员提交表格，工作人员会让我们先等一会，等什么呢，就是等工作人员通过电脑终端把信息转录到另一套记录体系。

现代银行基本都依靠各类信息系统进行管理，但这些信息系统是不能直接读取纸质表格的信息，那怎么办呢，只好通过人来转录，这个转录的过程免不了需要消耗人的时间和精力，增加了办理业务的成本，甚至成为限制提升业务办理效率的瓶颈之一。

两套并行记录体系对我们的影响当然远不止于银行，从更为宏观的视角来看，消耗了人类社会大量的人力物力，以及对于人来说更为宝贵的时间。

你可能又要说了，这些都是窗口业务，和日常生活关系并不紧密。其实不然，举一个我们很熟悉例子，二维码。

就拿春晚的观众互动来说吧，过去主持人是说想要和春晚互动的观众朋友，可以把信息发到屏幕下方公布的号码。那么，观众如果真要互动，就必须得把在屏幕上看到的这串长长的数字逐个逐个敲进手机，光是想就觉得麻烦，再加上有时候看错或者敲错，感觉就更费劲了。

现在有了二维码，主持人说想要和春晚互动的观众朋友，扫描屏幕下方的二维码就可以了，操作起来就简单太多了。所以，现在满大街都是二维码，就是因为二维码更为便捷。

不过，二维码只能解决两套记录体系并行问题的很小一部分，其它手段譬如内置芯片也只能治标不治本，毕竟我们人类社会几千年来都以纸作为信息的记录介质，已经产生了太多不可能符合机器读取要求的信息，要从根本上解决两套记录体系并行的问题，还是需要机器具备和人一样的“看图识字”的能力，也就是最终还得依靠OCR。

那么，现在的OCR技术发展到什么水平，又解决了什么实际问题了呢？

我认为，一项应用技术最重要的不是听起来有多前沿多高端，而是能解决什么实实在在的问题。我们说OCR突飞猛进，是因为OCR和深度学习结合以后，只需要简单拍照，就可以直接从图片中提取相应的文字，在很多应用场景已经有点“扫码即可”的意思了。

很多纸质的表格，譬如前面说的银行各类业务的表格，现在只需要简单地拍照就可以一下完成信息录入。以前我们拿到纸质名片，还需要手工敲字记录，现在很多App都提供一项功能，只要对名片进行拍照，就能自动提取上面的文字。

同时，OCR带来的不仅仅是简化录入，很多传统的软件功能，也因为OCR技术的发展，而带来了全新的使用体验。就说我印象最深的翻译软件，翻译软件当然不是什么新产品，大家应该都用过。

但一直以来使用翻译软件都有一个限制，那就是不管软件本身的翻译能力有多强，你得先录入原文然后才能看到译文，这有一个什么问题呢？有一些外语的原文我不知道怎么通过英文键盘输入，譬如日文、德文、法文，相信不是专门学这些语言的朋友都有和我同样的困扰。

现在有了OCR就方便多了，只需要直接拍照就能提取文字，不但解决了输入问题，效率还要高得多，有些翻译软件干脆就在原图上P上译文，更加直接明了，让我对翻软件有一种耳目一新的感觉。

除了翻译软件，OCR给我们熟悉的产品带来的改变还有很多，毕竟只要可以从图片中准确提取文字，就有太多的地方等待着我们发挥广阔的想象力。譬如说，通过OCR技术，即使是扫描生成的PDF也支持文本搜索了。

如果觉得这个例子太小，那就说搜索引擎，现在的搜索引擎还笨得很，输入文字只能搜到文字，输入图片只能搜到图片，文字和图片是泾渭分明，如果你想用文字搜带有这段文字的图片呢？对不起不行。

不过使用了OCR，以后也可以以文搜图了。譬如你翻老照片时找到一张你光着屁股坐在一块写着一段文字的石头上，你想知道这张照片在哪拍的。可是现在你去搜这段文字，很可能要么就什么都找不到，要么就找到一大堆无关的内容。

未来如果搜索引擎支持搜索图中文字的功能，你就能马上找到带有这段文字的其它照片，没准其中就有你想要找的内容。

OCR就介绍到这里，相信大家对于OCR是什么，能做什么，未来会有怎样的发展已经有了初步的了解。可是，OCR技术的原理是什么，传统的做法是什么，现在和深度学习又是怎样结合在一起？

我推荐大家阅读前面提过的这本专门介绍这些问题的书，《深度实践OCR：基于深度学习的文字识别》。这本书对OCR的介绍很全面，先从OCR的发展历程和经典的技术原理说起，然后介绍了深度学习的主要技术，最后再仔细介绍OCR和深度学术如何结合，而且还对如何通过代码实现进行了详细说明。看完这本书，对OCR的全貌、原理和应用，应该就能有比较清晰的了解。

作者简介：莫凡，网名木羊同学。娱乐向机器学习解说选手，《机器学习算法的数学解析与Python实现》作者，前沿技术发展观潮者，擅长高冷技术的“白菜化”解说，微信公众号“睡前机器学习”，个人知乎号“木羊”。

Tags：12306 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

注意！12306这个功能一定要开通！

最近坐火车的旅客注意啦！为做好新冠肺炎疫情常态化防控同时便于乘车人及时接收到列车运行变更信息旅客在购买火车票时需要预留乘车人本人的手机号码并通过系统核验关注中国铁...【详细内容】

2021-12-20　　Tags: 12306 点击:(7)　　评论:(0)　　加入收藏

12306算法到底有多难，员工自嘲＂天天过着双十一＂

国庆将至，也算是12306每年的一个小高峰，所以，咱们今天就来聊聊12306 “铁路12306”是中国铁路客户服务中心推出的官方购票软件，于2013年12月8日正式上线试运行。2021年春运，全国...【详细内容】

2021-09-28　　Tags: 12306 点击:(83)　　评论:(0)　　加入收藏

12306放票规则，建议收藏

1、提前20天晚上19：00，放20天后的动车组车票和Z字头车票。这个时间，一般不会有什么人抢动车组车票(毕竟动车组不会很抢手)。但一些重点线路(客流量大，车少，车次时间合适)的Z车车...【详细内容】

2021-09-15　　Tags: 12306 点击:(332)　　评论:(0)　　加入收藏

学会这几点，使用12306APP购票可以省下不少钱

2013年铁道部推出12306官方购票APP，经过几年的发展12306官方购票APP已经成为出行人必备软件之一。省钱妙招一：注册成为铁路畅行会员年满12周岁的自然人可申请成为“铁路畅行”...【详细内容】

2021-09-15　　Tags: 12306 点击:(75)　　评论:(0)　　加入收藏

12306新生学生票怎么买

很多新生同学在入学之前都之后录取通知书，很多用户听说过学生票，但是不知道只有录取通知书能不能买学生票，也不知道学生票要怎么买，那么下面就让小编给大家介绍一下12306新生学...【详细内容】

2021-09-08　　Tags: 12306 点击:(45)　　评论:(0)　　加入收藏

“五一”高铁票“售空”？第三方抢票“失灵”？专家提醒：12306最可靠

“五一”假期临近，热门高铁票“一秒售空”引发关注，不少网友感叹“刚刚刷出售票页面，火车票已经秒没”，也有网友表示“加价购票也没成功”“‘抢票’软件竟然失灵”。...【详细内容】

2021-04-21　　Tags: 12306 点击:(169)　　评论:(0)　　加入收藏

"12306”的架构到底有多牛逼？

每到节假日期间,一二线城市返乡、外出游玩的人们几乎都面临着一个问题：抢火车票!虽然现在大多数情况下都能订到票,但是放票瞬间即无票的场景，相信大家都深有体会。尤其是春节...【详细内容】

2021-01-04　　Tags: 12306 点击:(136)　　评论:(0)　　加入收藏

实用！12306又出重磅功能，列车动态尽在掌中

小伙伴们问你们一个问题验票安检进站后第一件事干啥？是满脸问号地找候车室还是着急地看自己的车次有没开始检票这时候你一定会45°仰视车站里的电子大屏仔细寻找属于自己...【详细内容】

2020-07-05　　Tags: 12306 点击:(98)　　评论:(0)　　加入收藏

12306验证码为什么那么变态？都是这项深度学习应用给逼的

导读：12306为什么要设置那么复杂的验证码机制呢？就是因为OCR。今天聊OCR。OCR是人工智能、机器学习特别是深度学习，在图像识别方向最为重要的应用之一。OCR全称Optical Chararc...【详细内容】

2020-06-30　　Tags: 12306 点击:(128)　　评论:(0)　　加入收藏

好消息！12306最新功能上线！网友：等了好久终于等到今天

现如今，越来越多的人选择在网络购买火车票，而12306作为中国铁路官方购票软件，也成为了网络购票的首选！手机端购票带给了人们极大的便利，但是，有一个短板在于，不能看到火车站内的大...【详细内容】

2020-06-22　　Tags: 12306 点击:(77)　　评论:(0)　　加入收藏

▌简易百科推荐

日本研发“飞行摩托”，售价高达435万人民币，远销我国你会买吗

日本在今年又给大家带来了一个巨大消息，日本著名的球星本田圭佑出资设立的一家公司，正式发售了飞行摩托车。在之前可是在电视或者是电影中才能看到的，是具备了未来科幻的一个...【详细内容】

2021-12-28　　科学知识点　　　　Tags:飞行摩托　点击:(4)　　评论:(0)　　加入收藏

鹰跟雕原来存在这些区别，看完文章你就能分辨了

在海洋、陆地、天空三片领域中，都有处在食物链顶端的王者，它们站在食物链顶端，拥有王者的身份，如海洋霸主虎鲸是毫无争议的海洋王者，在海洋中，基本上是所向披靡，没有天敌，而草原王者...【详细内容】

2021-12-17　　小楠动物世界　　　　Tags:雕　点击:(8)　　评论:(0)　　加入收藏

为什么宇宙中氦的含量仅次于氢，还说氦是稀有气体？

氦元素在全宇宙的质量中大约占了24%，但是在地球大气中的浓度为5.2 ppm（1ppm=0.0001％）[1]，因此称它为稀有气体。稀有气体也被称为惰性气体，化学反应上的惰性也是造成氦气在地球上含...【详细内容】

2021-12-15　　中科院物理所　　　　Tags:稀有气体　点击:(8)　　评论:(0)　　加入收藏

一位总经理浅谈工作中11个管理错误

在管理工作中，有些传统的做法是错误的，我们要避免犯这些错误。以下这11条，都是错的。 01 . 拒绝承担个人责任有一次，有一项工作出了差错，董事长把我叫去骂了一顿。我对董事长说，“...【详细内容】

2021-12-14　　股权设计布局　　　　Tags:管理　点击:(5)　　评论:(0)　　加入收藏

光是什么？

对光的研究起源于古希腊，在那里，哲学家们开始思考视觉是如何工作的。柏拉图和毕达哥拉斯等思想家认为，我们的眼睛会发出微弱的光线进行探测。这些光线将收集我们周围物体的信息...【详细内容】

2021-12-08　　　　中科院物理所　　Tags:光　点击:(12)　　评论:(0)　　加入收藏

吃完东西就犯困？科学家解释其中原因

据阿根廷布宜诺斯艾利斯经济新闻网12月6日报道，进食后感到困倦或疲惫是很常见的。这可以解释为，在那一刻，身体所有的能量都“投入”在消化过程中，短时间内感到有点昏昏欲睡非常...【详细内容】

2021-12-08　　　　参考消息　　Tags:犯困　点击:(8)　　评论:(0)　　加入收藏

从量子力学到量子信息

量子力学能用来干什么？更该问的是它不能干什么！在知道了量子力学这个学科后，许多人就会来问：它能用来干什么？实际上，这个问题问偏了。真正有意义的问题是：量子力学不能用来干什么？因...【详细内容】

2021-12-07　　中科院物理所　　　　Tags:量子力学　点击:(16)　　评论:(0)　　加入收藏

没有人比我更懂电流，今天带你重新认识电流

电流是什么？首先回想下，我们学过的电流的定义是什么？很简单，导体中的带电粒子的定向运动就是电流。只有当物质内具有能自由移动的带电粒子，它才可以传输电流——即导电...【详细内容】

2021-12-07　　　　中科院物理所　　Tags:电流　点击:(25)　　评论:(0)　　加入收藏

什么是光速不变原理？为什么光速不变？

要理解光速不变原理。首先要有抛弃固有的思维模式的思想准备，否则不容易理解。因为爱因斯坦这个理论有点离经叛道。我们都知道，描叙一个运动，必须有参考系才有意义。说一列火...【详细内容】

2021-11-30　　宇宙探索　　　　Tags:光速不变　点击:(18)　　评论:(0)　　加入收藏

为什么打呼噜的人，不会吵醒自己？原来都和"它们"有关

一半是彻夜无眠，而床上的另一半是呼噜声连绵不绝。这个场景恐怕是很多家庭的真实写照了吧。更让人崩溃的是，推一下不打了，下一秒又开始了“呼~~~呼~~呼”。给我闭嘴！！！那为什么“...【详细内容】

2021-11-17　　　　科普中国　　Tags:打呼噜　点击:(22)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游