<pre id="co8k0"><cite id="co8k0"></cite></pre><strike id="co8k0"></strike>
  • <acronym id="co8k0"><cite id="co8k0"></cite></acronym>
  • <nav id="co8k0"></nav>
    <input id="co8k0"><em id="co8k0"></em></input>
  • 這個(gè)人有多厲害?他發(fā)明了驗(yàn)證碼,讓全世界都心甘情愿幫他干活

    【IT時(shí)代網(wǎng)編者按】驗(yàn)證碼是是一種區(qū)分用戶是計(jì)算機(jī)還是人的公共全自動(dòng)程序。可以防止:惡意破解密碼、刷票、論壇灌水,有效防止某個(gè)黑客對某一個(gè)特定注冊用戶用特定程序暴力破解方式進(jìn)行不斷的登陸嘗試,實(shí)際上用驗(yàn)證碼是現(xiàn)在很多網(wǎng)站通行的方式,我們利用比較簡易的方式實(shí)現(xiàn)了這個(gè)功能。

    英文原文:reCAPTCHA: The Genius Who’s Tricking the World Into Doing His Work

    二維碼的作用才不是為了用基于人的計(jì)算來證明你是個(gè)人類,以及煩你。

    在你購買阿黛爾巡回演出高價(jià)票的時(shí)候出現(xiàn)的那些奇怪扭曲的話就是驗(yàn)證碼。你知道它們,我知道它們,大家都知道它們是什么,但是沒有人喜歡這些東西。

    它們出現(xiàn)有一陣子了,但直到不久之前,我才把這些為了阻止互聯(lián)網(wǎng)上機(jī)器人和騙子而設(shè)立的犯人的東西淘汰掉。

    但這帶來了意外的驚喜:很多時(shí)候,驗(yàn)證碼是具有實(shí)際意義的文本,我花在打驗(yàn)證碼上面的五秒鐘加上其他人們花在這上面的五秒鐘,不知不覺中會構(gòu)成強(qiáng)大的計(jì)算能力。

    這個(gè)故事發(fā)生有段時(shí)間了,但我相信大部分人還不知道它。

    這是一個(gè)有關(guān)驗(yàn)證碼如何產(chǎn)生,以及發(fā)明它的人為啥是個(gè)天才的故事。

    問題

    2000 年的時(shí)候,Luis von Ahn 還是卡內(nèi)基梅隆大學(xué)的研究生。他和他的教授 Manuel Blum 一起進(jìn)行一項(xiàng)只有人類可以通過,電腦不能通過的測試,用來防止黃牛用電腦程序自動(dòng)購票然后以更高的價(jià)格轉(zhuǎn)手賣出去。

    他們得到的解決方案是 CAPTCHA,也就是初級的驗(yàn)證碼,被稱為「用來區(qū)分人類與電腦的全自動(dòng)圖靈測試」。人們通過識別系統(tǒng)顯示的扭曲字母序列和復(fù)雜的縮寫來證明自己是人類。

    問題解決了對嗎?可能吧。

    雖然這種驗(yàn)證碼對于識別詐騙機(jī)器人有效,但 von Ahn 有意識到了一個(gè)有關(guān)效率的新問題。在接受 The Walrus 采訪時(shí),Luis 說他在無意中創(chuàng)造了一個(gè)會浪費(fèi)人類最重要資源——由一個(gè)又一個(gè)十秒鐘累積而成的數(shù)萬小時(shí)的人類大腦循環(huán)。

    具體來說,這種驗(yàn)證碼每天都會讓大家看 2 億個(gè)單詞,每個(gè)單詞大約 10 秒鐘,也就是每天會浪費(fèi)大約 50 萬小時(shí)的人力資源。

    解決方法

    故事是這樣的。在開車從華盛頓到匹茲堡的路上,von Ahn 想到了將那些被浪費(fèi)掉的人力利用起來的方法,就是將雜亂無章的單詞轉(zhuǎn)換成有意愿的詞語。用這種方法,那些被「浪費(fèi)」掉的人類大腦運(yùn)轉(zhuǎn)時(shí)間又一次被利用了。

    他將兩種低效用腦的方法結(jié)合起來,產(chǎn)生了一個(gè)雙贏的方案。這是個(gè)天才的想法,他因此獲得了 2006 年的麥克阿瑟天才獎(jiǎng),獎(jiǎng)金 50 萬美元。

    在光學(xué)字符識別(OCR)中,有大約 20% 的掃描材料是不能被讀取印刷材料的計(jì)算機(jī)程序識別的。

    von Anh 利用進(jìn)階版驗(yàn)證碼程序做的第一件事就是去幫助紐約時(shí)報(bào)的檔案館數(shù)字化,檔案館建立于 1851 年,有超過 1300 萬篇文章?,F(xiàn)在,這些文章都已經(jīng)被識別完可以從網(wǎng)上搜索到了。

    以下是維基百科對于驗(yàn)證碼工作原理的介紹:

    不能識別的字符將會被單獨(dú)找出來,和一些能夠識別的字符同時(shí)顯示。如果填寫驗(yàn)證碼的人將能識別的字符回答正確,那么他們對于不能被識別的字符也會被判定為正確,他們對于不能識別字符的判定結(jié)果就會被認(rèn)為是有效的。OCR 程序自己識別出的字將會得到 0.5 分的分值,而每個(gè)人對于這個(gè)字的判斷都會得到 1 分。當(dāng)一個(gè)字的分?jǐn)?shù)超過 2.5 分,這個(gè)字就會被認(rèn)為是有效的。那些被人們得出過一致結(jié)論的詞就又會被認(rèn)為是「可識別的詞語」來判別其他詞語。如果前三個(gè)人類用戶識別結(jié)果一致,但他們的結(jié)果與 OCR 得出的結(jié)果不一致,那么人類的結(jié)論將被采納,這個(gè)詞會被認(rèn)為是可識別詞。如果一個(gè)詞語被六個(gè)用戶得出不同的結(jié)論,那么它將會被認(rèn)為是不可識別的而被棄置。 顯而易見,Luis 將兩個(gè)看似無關(guān)的事情放在了一起,讓很多人通過少量工作共同努力完成一件有意義的事情,并能達(dá)到 99.1% 的準(zhǔn)確率。

    Facebook、TicketMaster、Twitter、4chan、CNN.com、StumbleUpon, 以及 Craigslist 這些網(wǎng)站每天都會顯示超過一億次驗(yàn)證碼,這些驗(yàn)證碼正在幫助互聯(lián)網(wǎng)信息的數(shù)字化。

    Google 也看到了驗(yàn)證碼的價(jià)值,雄心勃勃地宣稱要講全世界每一本書都收錄在內(nèi)的 Google Books 也在使用驗(yàn)證碼來掃描書籍。目前他們已經(jīng)掃描了超過 2500 萬本書,在全世界范圍內(nèi)使用了 1 億 3000 萬條驗(yàn)證碼。

    注:你是否曾經(jīng)遇到過看上去像是房子門牌號的驗(yàn)證碼?Google 2012 年開始在驗(yàn)證碼系統(tǒng)中投入街道截圖,用來識別地址、街道名稱和交通標(biāo)志。

    啟示

    盡管驗(yàn)證碼在區(qū)分人和機(jī)器這件事上十分重要,它依然曾經(jīng)因?yàn)闆]有向幫助他們轉(zhuǎn)錄的人付勞動(dòng)薪水而被批評,就像是亞馬遜的 Mechanical Turk 沒有向工人付薪水一樣。

    事實(shí)上,驗(yàn)證碼的詞語是雜亂無章的還是一個(gè)有意義的詞真的重要嗎?從用戶的角度看,其實(shí)沒什么區(qū)別。但我很愿意幫助到別人,就像我們在 2002 年都回去下載 SETI 的屏幕保護(hù)來幫助他們尋找外星人一樣。(譯注:「SETI」是英文:Search for Extra-terrestrial Intelligence 的縮寫,意思是搜尋外星文明,SETI@home 是加州大學(xué)伯克利分校發(fā)起的意向利用全球互聯(lián)網(wǎng)共同搜尋地外文明的計(jì)劃,志愿者可以通過下載他們的軟件,在屏幕保護(hù)或后臺模式等不影響用戶使用他們電腦的情況下,利用多余的處理器系統(tǒng)下載并分析從射電望遠(yuǎn)鏡傳來的數(shù)據(jù)幫助該項(xiàng)目尋找外星文明。)

    無論你在不知情勞動(dòng)這件事上持什么立場,你都不得不佩服 von Ahn 利用計(jì)算來完成一個(gè)偉大的想法,幫助人類完成雙贏的行為。

    Kickstarter 是個(gè)做眾籌的網(wǎng)站,眾包共同完成工作在商業(yè)上并不是什么新鮮事。但這在基于人類的計(jì)算當(dāng)中尚未得到廣泛應(yīng)用。Mechanical Turk 在被正確使用時(shí),就是一個(gè)能夠?qū)⒋罅抗ぷ鞣稚⒌匠汕先f人的有力工具。就好像是一個(gè)人只花了 200 美元就得到了一萬張羊皮卷。

    更棒的是這種想法還可以在各種各樣的應(yīng)用程序當(dāng)中使用,就像 Luis 現(xiàn)在工作的公司,提供免費(fèi)在線學(xué)習(xí)語言服務(wù)的 Duolingo。對不熟悉的人而言,這是一個(gè)通過在網(wǎng)頁端或 App 中通過翻譯游戲來學(xué)習(xí)語言的服務(wù)。想知道這些被翻譯的文字是哪來的?Duolingo 跟 BuzzFeed 和 CNN 合作,翻譯他們的內(nèi)容。

    通過 Duolingo 上到 2015 年 6 月為止的一億活躍用戶的努力,巴西人們將會跟我們看到同樣的新聞。【責(zé)任編輯/閆紅玉】

    來源:TECH2IPO / 創(chuàng)見

    IT時(shí)代網(wǎng)(關(guān)注微信公眾號ITtime2000,定時(shí)推送,互動(dòng)有福利驚喜)所有原創(chuàng)文章版權(quán)所有,未經(jīng)授權(quán),轉(zhuǎn)載必究。
    創(chuàng)客100創(chuàng)投基金成立于2015年,直通硅谷,專注于TMT領(lǐng)域早期項(xiàng)目投資。LP均來自政府、互聯(lián)網(wǎng)IT、傳媒知名企業(yè)和個(gè)人。創(chuàng)客100創(chuàng)投基金對IT、通信、互聯(lián)網(wǎng)、IP等有著自己獨(dú)特眼光和豐富的資源。決策快、投資快是創(chuàng)客100基金最顯著的特點(diǎn)。

    相關(guān)文章
    這個(gè)人有多厲害?他發(fā)明了驗(yàn)證碼,讓全世界都心甘情愿幫他干活
    宗寧:驗(yàn)證碼的本意是安全而不是困難,起碼成功遏制了黃牛
    驗(yàn)證碼這種反人類的存在,早該取締了
    12306奇葩驗(yàn)證碼背后的反思

    精彩評論