这里是log

用大数据偷懒:谷歌的验证码为什么那么丑

  • 来源:武房网
  • 丁一
  • 话题 大数据谷歌
  • 分享

随着网络越来越紧密的渗透到我们的生活当中,我们不得不经常面对一个麻烦的小伙伴----验证码。说它麻烦是因为它经常会以非常丑陋难以辨认的方式出现,比如:

1.jpg

或者是这样的

f703738da97739126a569f75f8198618367ae2b6.jpg

又或者是这样的:

 

1449654315636.jpg

不好意思,拿错图了。这是网友在吐槽某网站验证码带来的极差的用户体验。

当你多次刷新,依然看不清楚这是什么鬼的时候,你是不是想砸键盘?

验证码(CAPTCHA)是“Completely Automated Public Turing test to tell Computers and Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写,是一种区分用户是计算机还是人的公共全自动程序。用来防止恶意破解密码、刷票、论坛灌水,或者防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试,是一种安全保护程序。

随着技术的发展,极客们开始利用OCR(光学字符扫描分析)来破解验证码。于是,验证码开始变得变形扭曲,使得机器无法识别。但是这极大的影响了用户体验。

这就是验证码如此丑陋的原因。

很多网站的验证码成了网友进行“我猜我猜我猜猜”的比拼运气和眼力甚至是智力的战场。

2.jpg

然而,谷歌的验证码却有些不一样。比起许多网站为了丑而丑的验证码,他们实际上是在利用大数据下一盘大棋。

2004年谷歌宣布开启一项新的数字工程,计划尽可能将全世界纸质图书扫描成电子版,让更多的书籍网络数字化让全球网民搜索阅读。哈佛大学、牛津大学图书馆、斯坦福大学图书馆、康奈尔大学图书馆、纽约公共图书馆等世界一流图书馆都参与了合作。其中哈佛大学就有1600万册书籍,牛津大学650万册书,纽约公共图书馆51万本书,加上其它各个图书馆,若将这些书籍全部数字化将是一笔巨大的知识财富。这是一项规模浩大的宏伟工程。

71896004_2.jpg

比起书籍的版权问题,更令谷歌头疼的是如何将如此多的书籍数字化。如果是靠人手动输入,那么谷歌公司的员工就不用做其他工作了,全转职做打字员吧,而且人数肯定还不够。所以他们选择用OCR技术。就像前文提到的,这个技术存在缺陷。

算法缺陷、字迹模糊、污迹等都会造成识别上的错误,并且这是程序无法解决的问题。卡内基梅隆大学(恰恰也是验证码的发明者之一)发明一项ReCAPTCHA系统,这个系统可以收集错误信息,通过API接口调用透过第三方来修正错误,然后将修正后的文字信息返回服务器自动修正,为此谷歌于2009年收购了ReCAPTCHA技术。

谷歌正是利用ReCAPTCHA技术将难以识别的文字信息作为验证码,这样不仅有效阻挡了程序的恶意刷新登录,更是在无形中免费通过人工处理了机器无法识别的文字。

1311520.jpg

谷歌验证码分为两部分,这当中有一个是谷歌已知的明确的单词,另一个是错误的单词(无法识别的图书内容)两部分混合而成,顺序随机。当一个用户将明确的单词输入正确后才会通过,然后提交。

谷歌拥有数以亿计的用户,每天输入的验证码也会是海量的。通过这样的大数据收集,很容易就能对比筛选出正确的文字内容。

许多人甚至不知道自己已经参与了人类历史上最浩大的文化工程。大数据时代已经来临,它对我们生活的影响有时就是这么润物细无声般的,我们或许尚未感知到,但它真的已经在改变我们的生活!

责任编辑:丁一

新闻视界政策解读房产市场金融