“我不是機(jī)器人”,本應(yīng)是不言自明的事情。
但在計(jì)算機(jī)承認(rèn)你是人類之前,你可能會被要求點(diǎn)擊包含紅綠燈或人行道的圖像。
當(dāng)你靠近屏幕瞇起眼睛,思考一個微乎其微的邊角算不算時,你就會知道,這并不像聽起來那么容易。
這種難以自證的感覺,2015 年在 12306 搶票的春運(yùn)人應(yīng)該就有領(lǐng)略。
多年過去了,不斷翻新花樣的驗(yàn)證碼,依然迫使你思考古老的哲學(xué)問題——我是誰?
微笑的狗,云做的馬,自證是人更難了
“請點(diǎn)擊每張包含微笑的狗的圖片。”
某創(chuàng)意營銷機(jī)構(gòu)創(chuàng)始人 Jared Bauman 最近被驗(yàn)證碼難住了。他疑惑的是,狗真的會笑嗎?大多數(shù)狗看起來既不高興也不難過,有些在做鬼臉,有些只是張著嘴。
8 月 2 日,他又被要求找出“用云做成的馬”,9 張圖里有 2 張用云做成的大象,他第一次點(diǎn)擊時不幸敗北。
Jared Bauman 意識到了一個嚴(yán)重的問題——找出紅綠燈、公交車或煙囪已經(jīng)過時了,驗(yàn)證碼系統(tǒng)開始設(shè)置下一個級別的挑戰(zhàn)了。
這些驗(yàn)證碼出自 hCaptcha,開發(fā)者稱,它比 Google 的驗(yàn)證碼系統(tǒng) reCAPTCHA 更注重隱私,只收集最低限度的必要個人數(shù)據(jù)。
而驗(yàn)證碼為什么會越來越難,還是要從驗(yàn)證碼是什么,以及 Google 的驗(yàn)證碼系統(tǒng) reCAPTCHA 是什么說起。
驗(yàn)證碼(CAPTCHA),全稱是“全自動區(qū)分計(jì)算機(jī)和人類的公開圖靈測試”。
由于它是用計(jì)算機(jī)來考人類,而不是標(biāo)準(zhǔn)圖靈測試中那樣由人類來考計(jì)算機(jī),所以驗(yàn)證碼也被視為一種反向圖靈測試。
驗(yàn)證碼的設(shè)計(jì)初衷是,保護(hù)網(wǎng)站免受有害機(jī)器人的侵害,包括傳播惡意軟件、散布虛假賬戶、執(zhí)行 DDoS 攻擊、發(fā)送大量垃圾郵件、竊取用戶信息等。這些機(jī)器人本質(zhì)上是一行行自動運(yùn)行的計(jì)算機(jī)代碼。
驗(yàn)證碼創(chuàng)建于 2000 年代初,最早由卡內(nèi)基梅隆大學(xué)的幾位計(jì)算機(jī)科學(xué)家開發(fā)。
最初的驗(yàn)證碼采用了扭曲的文本形式,避免被光學(xué)字符識別等計(jì)算機(jī)程序自動識別,超過了當(dāng)時計(jì)算機(jī)可以破譯的程度,但對大多數(shù)人類可讀。
很快,研究人員意識到這項(xiàng)技術(shù)具有區(qū)分人類和機(jī)器人之外的潛力,他們開發(fā)了 reCAPTCHA 技術(shù),讓用戶在填寫驗(yàn)證碼的過程中將紙質(zhì)檔案數(shù)字化,因?yàn)槿祟惪梢员扔?jì)算機(jī)更好地破譯老舊文獻(xiàn)中扭曲的字母。
這一階段,用戶必須輸入兩個詞,一個是答案明確的真正測試,另一個是尚未轉(zhuǎn)錄的新詞。通過向世界各地用戶多次顯示相同單詞,reCAPTCHA 便可以自動驗(yàn)證單詞是否被正確轉(zhuǎn)錄。
這就像互聯(lián)網(wǎng)的一次眾籌,求得你的時間而非金錢。互聯(lián)網(wǎng)的神奇之處便在此,在技術(shù)支持下,再創(chuàng)造一些樂趣,你可以利用所有人的一點(diǎn)精力,自然而然聚沙成塔。
2009 年,Google 收購了 reCAPTCHA,并將其用于數(shù)字化 Google 圖書和紐約時報檔案。2011 年,Recaptcha 已經(jīng)完成了整個 Google 圖書檔案、1300 萬篇紐約時報文章的數(shù)字化。2012 年,它每天翻譯大約 1.5 億個單詞。
驗(yàn)證碼為什么越來越難?
人類沉浸在知識的海洋,機(jī)器人也沒有停下學(xué)習(xí)的腳步。
2014 年,Google 發(fā)布了一個專門解讀扭曲文本驗(yàn)證碼的算法,人工智能技術(shù)已經(jīng)能以 99.8% 的準(zhǔn)確率解決最困難的扭曲文本,而人類的成功率是 33%。
扭曲的字母失去了它最初的用處,該讓下一代驗(yàn)證碼登場了。
2012 年,Google 推出了 reCAPTCHA 的圖像識別版本,其中包括來自 Google 街景的照片,從而讓用戶轉(zhuǎn)錄門牌號碼和其他標(biāo)志。
類似當(dāng)初將舊書數(shù)字化,在這個過程中,Google 一舉多得,既防御了惡意腳本,自己的人工智能也在進(jìn)步。
Google 稱:“街景和 reCAPTCHA 團(tuán)隊(duì)密切合作,兩者都將繼續(xù)改進(jìn),使地圖更加精確和有用,reCAPTCHA 更安全、更有效。”讓地圖更加精確和有用,意味著 Google 需要訓(xùn)練人工智能更好地識別圖像中的物體。
那怎么訓(xùn)練人工智能?reCAPTCHA。數(shù)以億計(jì)的用戶為了證明自己是人類,為科技公司建立起了機(jī)器學(xué)習(xí)數(shù)據(jù)集。
進(jìn)步的不止 Google。2017 年,開發(fā)人員 Francis Kim 進(jìn)行了一項(xiàng)實(shí)驗(yàn),用 40 行 Javascript構(gòu)建了一個系統(tǒng),使用 Google 競爭對手 Clarifai 的圖像識別 API,嘗試通過 reCAPTCHA 的圖像驗(yàn)證碼。結(jié)果,這個腳本成功找出了圖中的商店。
理論上,這也可以使用 Google 自己的圖像識別技術(shù)來實(shí)現(xiàn)。
Google 的驗(yàn)證碼系統(tǒng)其實(shí)有兩個目的:在用文本、圖像等訓(xùn)練人工智能的同時,抑制惡性腳本的行為。但事實(shí)是,Google 的人工智能是越來越厲害了,但惡性腳本也在斗智斗勇中進(jìn)步,只有用戶證明自己是人越來越難了。
2014 年,Google 的“No CAPTCHA reCAPTCHA”登臺,即“沒有驗(yàn)證碼的驗(yàn)證碼”,界面簡潔友好,只需要你堅(jiān)信“我不是機(jī)器人”。
Google 稱,它推出了一個新的 API,可觀察用戶行為,收集指針移動速率、當(dāng)前 IP、是否使用插件、頁面使用時間、進(jìn)行過多少次點(diǎn)擊等數(shù)據(jù),從根本上簡化了 reCAPTCHA 體驗(yàn)。大多數(shù)情況下,只需單擊一下,就能確認(rèn)用戶是不是機(jī)器人。
但是,驗(yàn)證碼沒有消失。甚至可以說,最討人厭的驗(yàn)證碼出現(xiàn)了。
在風(fēng)險分析引擎無法預(yù)測用戶是不是人的情況下,Google 會讓驗(yàn)證碼再次出山,并且給出了更多新玩法,比如基于經(jīng)典計(jì)算機(jī)視覺圖像標(biāo)記問題,讓你選出所有包括貓或火雞的照片。
此外,還有類似游戲的驗(yàn)證碼,要求用戶將物體旋轉(zhuǎn)到特定角度,或?qū)⑵磮D移動到適當(dāng)?shù)奈恢谩?/p>
人類能夠理解謎題的邏輯,但缺乏明確指令的機(jī)器人會被難住。但以后會不會掌握就難說了。
機(jī)器學(xué)習(xí)得越多,人類擁有的優(yōu)勢就越少,這是一個道高一尺魔高一百丈的過程。
驗(yàn)證碼可以被替代嗎?
伊利諾伊大學(xué)芝加哥分校計(jì)算機(jī)科學(xué)教授 Jason Polakis 指出,機(jī)器學(xué)習(xí)現(xiàn)在在基本的文本、圖像和語音識別任務(wù)上與人類差不多,“我們需要一些替代方案”。
更重要的是,在驗(yàn)證碼系統(tǒng)前,用戶體驗(yàn)和可訪問性大大降低。驗(yàn)證碼對很多人來說已經(jīng)不容易,特別是老人等有學(xué)習(xí)障礙的群體。
為老年客戶提供技術(shù)建議的 Eileen Ridge 表示,她經(jīng)常接到客戶的電話,老人很難辨別油漆磨損的人行道和正常的人行橫道,并且十分擔(dān)心自己因?yàn)殄e誤答案被鎖定帳戶,就像許多國內(nèi)老年人對互聯(lián)網(wǎng)的態(tài)度一樣。
微笑的狗、云做的馬,對他們來說可能更難。
而代替驗(yàn)證碼的方案,也在不斷開發(fā)中。
一些網(wǎng)站使用一種人類用戶不可見的驗(yàn)證碼形式,將字段插入到僅對機(jī)器人可見的屏幕上,誘騙它們填寫表格并證明它們不是人類。
近兩年,Google 推出了新驗(yàn)證碼系統(tǒng) reCaptcha v3,它采用逆向思維,自動記錄使用者在網(wǎng)站中瀏覽的行為特征,根據(jù)這些記錄來給用戶打分,若用戶分?jǐn)?shù)過低則會被判定為機(jī)器人。否則不會打擾到用戶,上網(wǎng)體驗(yàn)很絲滑。但它可能涉及隱私問題。
FastCompany 報道,用戶是否使用 Google Cookies 是決定評分的一個重要因素。如果用戶選擇讓 Google 記住登錄信息的話,會得到更高的分?jǐn)?shù),沒有登錄 Google 帳號,或者使用 VPN 或者洋蔥瀏覽器通常會被提示高風(fēng)險。
機(jī)器人檢測公司 Shape Security 的首席技術(shù)官 Ghosemajumder 則認(rèn)為,游戲驗(yàn)證碼、視頻驗(yàn)證碼等驗(yàn)證碼測試,最終都會被破解。與測試相比,他更喜歡“持續(xù)身份驗(yàn)證”,本質(zhì)是觀察用戶的行為,從中尋找自動化的跡象:
“一個真正的人類不能很好地控制自己的運(yùn)動功能,因此即使他們非常努力地嘗試,他們也不能在多次交互中多次以相同的方式移動鼠標(biāo)。”
今年 6 月,蘋果在全球開發(fā)者大會宣布將用私人訪問令牌(Private Access Tokens)取代驗(yàn)證碼。
密碼或生物識別解鎖手機(jī)、打開瀏覽器、精準(zhǔn)輸入網(wǎng)站……一系列操作足以“驗(yàn)明正身”。當(dāng)蘋果系統(tǒng)驗(yàn)證該設(shè)備和 Apple ID 帳戶是正常狀態(tài),再向需要驗(yàn)證碼的 app 或網(wǎng)站提供“私人訪問令牌”即可。
提供網(wǎng)站安全管理的 Cloudflare、Ffast 等公司已支持私人訪問令牌,用 iOS 16 設(shè)備登錄這兩家公司的 app 或網(wǎng)站,不再需要驗(yàn)證碼。目前,這項(xiàng)技術(shù)還在推廣之中,需要更多的支持者加入,才能更好用。
蘋果工程師 Tommy Pauly 指出:“這將為很多人節(jié)省大量時間,并且用戶喜歡被信任的感覺。”
但只要有虛假賬戶、垃圾郵件、騷擾信息等的存在,我們?nèi)匀恍枰獙⑷祟愑脩襞c機(jī)器人分開的技術(shù),某種形式的驗(yàn)證碼技術(shù)將始終存在,與人工智能并行發(fā)展。
未來,驗(yàn)證碼系統(tǒng)識別人類,很可能不是通過我們超越機(jī)器人的能力,而是通過我們犯錯誤的可能。也就是說設(shè)置更多挑戰(zhàn)性的測試,我們往往會失敗,而機(jī)器人給出正確答案。或許,在我們抓耳撓腮地尋找圖中所有的信號燈時,就是在進(jìn)行以人類一敗涂地為結(jié)局的斗爭。【責(zé)任編輯/常青】
來源:愛范兒
IT時代網(wǎng)(關(guān)注微信公眾號ITtime2000,定時推送,互動有福利驚喜)所有原創(chuàng)文章版權(quán)所有,未經(jīng)授權(quán),轉(zhuǎn)載必究。
創(chuàng)客100創(chuàng)投基金成立于2015年,直通硅谷,專注于TMT領(lǐng)域早期項(xiàng)目投資。LP均來自政府、互聯(lián)網(wǎng)IT、傳媒知名企業(yè)和個人。創(chuàng)客100創(chuàng)投基金對IT、通信、互聯(lián)網(wǎng)、IP等有著自己獨(dú)特眼光和豐富的資源。決策快、投資快是創(chuàng)客100基金最顯著的特點(diǎn)。
小何
小何
小何
來自: 【人物】滴滴創(chuàng)始人程維回顧與Uber競爭:中國互聯(lián)網(wǎng)從來沒有輸過--IT時代網(wǎng)
小何
來自: 少年頭條對壘中年騰訊:解局兩代互聯(lián)網(wǎng)公司商業(yè)之戰(zhàn)--IT時代網(wǎng)