<pre id="co8k0"><cite id="co8k0"></cite></pre><strike id="co8k0"></strike>
  • <acronym id="co8k0"><cite id="co8k0"></cite></acronym>
  • <nav id="co8k0"></nav>
    <input id="co8k0"><em id="co8k0"></em></input>
  • 這個人有多厲害?他發明了驗證碼,讓全世界都心甘情愿幫他干活

    【IT時代網編者按】驗證碼是是一種區分用戶是計算機還是人的公共全自動程序。可以防止:惡意破解密碼、刷票、論壇灌水,有效防止某個黑客對某一個特定注冊用戶用特定程序暴力破解方式進行不斷的登陸嘗試,實際上用驗證碼是現在很多網站通行的方式,我們利用比較簡易的方式實現了這個功能。

    英文原文:reCAPTCHA: The Genius Who’s Tricking the World Into Doing His Work

    二維碼的作用才不是為了用基于人的計算來證明你是個人類,以及煩你。

    在你購買阿黛爾巡回演出高價票的時候出現的那些奇怪扭曲的話就是驗證碼。你知道它們,我知道它們,大家都知道它們是什么,但是沒有人喜歡這些東西。

    它們出現有一陣子了,但直到不久之前,我才把這些為了阻止互聯網上機器人和騙子而設立的犯人的東西淘汰掉。

    但這帶來了意外的驚喜:很多時候,驗證碼是具有實際意義的文本,我花在打驗證碼上面的五秒鐘加上其他人們花在這上面的五秒鐘,不知不覺中會構成強大的計算能力。

    這個故事發生有段時間了,但我相信大部分人還不知道它。

    這是一個有關驗證碼如何產生,以及發明它的人為啥是個天才的故事。

    問題

    2000 年的時候,Luis von Ahn 還是卡內基梅隆大學的研究生。他和他的教授 Manuel Blum 一起進行一項只有人類可以通過,電腦不能通過的測試,用來防止黃牛用電腦程序自動購票然后以更高的價格轉手賣出去。

    他們得到的解決方案是 CAPTCHA,也就是初級的驗證碼,被稱為「用來區分人類與電腦的全自動圖靈測試」。人們通過識別系統顯示的扭曲字母序列和復雜的縮寫來證明自己是人類。

    問題解決了對嗎?可能吧。

    雖然這種驗證碼對于識別詐騙機器人有效,但 von Ahn 有意識到了一個有關效率的新問題。在接受 The Walrus 采訪時,Luis 說他在無意中創造了一個會浪費人類最重要資源——由一個又一個十秒鐘累積而成的數萬小時的人類大腦循環。

    具體來說,這種驗證碼每天都會讓大家看 2 億個單詞,每個單詞大約 10 秒鐘,也就是每天會浪費大約 50 萬小時的人力資源。

    解決方法

    故事是這樣的。在開車從華盛頓到匹茲堡的路上,von Ahn 想到了將那些被浪費掉的人力利用起來的方法,就是將雜亂無章的單詞轉換成有意愿的詞語。用這種方法,那些被「浪費」掉的人類大腦運轉時間又一次被利用了。

    他將兩種低效用腦的方法結合起來,產生了一個雙贏的方案。這是個天才的想法,他因此獲得了 2006 年的麥克阿瑟天才獎,獎金 50 萬美元。

    在光學字符識別(OCR)中,有大約 20% 的掃描材料是不能被讀取印刷材料的計算機程序識別的。

    von Anh 利用進階版驗證碼程序做的第一件事就是去幫助紐約時報的檔案館數字化,檔案館建立于 1851 年,有超過 1300 萬篇文章。現在,這些文章都已經被識別完可以從網上搜索到了。

    以下是維基百科對于驗證碼工作原理的介紹:

    不能識別的字符將會被單獨找出來,和一些能夠識別的字符同時顯示。如果填寫驗證碼的人將能識別的字符回答正確,那么他們對于不能被識別的字符也會被判定為正確,他們對于不能識別字符的判定結果就會被認為是有效的。OCR 程序自己識別出的字將會得到 0.5 分的分值,而每個人對于這個字的判斷都會得到 1 分。當一個字的分數超過 2.5 分,這個字就會被認為是有效的。那些被人們得出過一致結論的詞就又會被認為是「可識別的詞語」來判別其他詞語。如果前三個人類用戶識別結果一致,但他們的結果與 OCR 得出的結果不一致,那么人類的結論將被采納,這個詞會被認為是可識別詞。如果一個詞語被六個用戶得出不同的結論,那么它將會被認為是不可識別的而被棄置。 顯而易見,Luis 將兩個看似無關的事情放在了一起,讓很多人通過少量工作共同努力完成一件有意義的事情,并能達到 99.1% 的準確率。

    Facebook、TicketMaster、Twitter、4chan、CNN.com、StumbleUpon, 以及 Craigslist 這些網站每天都會顯示超過一億次驗證碼,這些驗證碼正在幫助互聯網信息的數字化。

    Google 也看到了驗證碼的價值,雄心勃勃地宣稱要講全世界每一本書都收錄在內的 Google Books 也在使用驗證碼來掃描書籍。目前他們已經掃描了超過 2500 萬本書,在全世界范圍內使用了 1 億 3000 萬條驗證碼。

    注:你是否曾經遇到過看上去像是房子門牌號的驗證碼?Google 2012 年開始在驗證碼系統中投入街道截圖,用來識別地址、街道名稱和交通標志。

    啟示

    盡管驗證碼在區分人和機器這件事上十分重要,它依然曾經因為沒有向幫助他們轉錄的人付勞動薪水而被批評,就像是亞馬遜的 Mechanical Turk 沒有向工人付薪水一樣。

    事實上,驗證碼的詞語是雜亂無章的還是一個有意義的詞真的重要嗎?從用戶的角度看,其實沒什么區別。但我很愿意幫助到別人,就像我們在 2002 年都回去下載 SETI 的屏幕保護來幫助他們尋找外星人一樣。(譯注:「SETI」是英文:Search for Extra-terrestrial Intelligence 的縮寫,意思是搜尋外星文明,SETI@home 是加州大學伯克利分校發起的意向利用全球互聯網共同搜尋地外文明的計劃,志愿者可以通過下載他們的軟件,在屏幕保護或后臺模式等不影響用戶使用他們電腦的情況下,利用多余的處理器系統下載并分析從射電望遠鏡傳來的數據幫助該項目尋找外星文明。)

    無論你在不知情勞動這件事上持什么立場,你都不得不佩服 von Ahn 利用計算來完成一個偉大的想法,幫助人類完成雙贏的行為。

    Kickstarter 是個做眾籌的網站,眾包共同完成工作在商業上并不是什么新鮮事。但這在基于人類的計算當中尚未得到廣泛應用。Mechanical Turk 在被正確使用時,就是一個能夠將大量工作分散到成千上萬人的有力工具。就好像是一個人只花了 200 美元就得到了一萬張羊皮卷。

    更棒的是這種想法還可以在各種各樣的應用程序當中使用,就像 Luis 現在工作的公司,提供免費在線學習語言服務的 Duolingo。對不熟悉的人而言,這是一個通過在網頁端或 App 中通過翻譯游戲來學習語言的服務。想知道這些被翻譯的文字是哪來的?Duolingo 跟 BuzzFeed 和 CNN 合作,翻譯他們的內容。

    通過 Duolingo 上到 2015 年 6 月為止的一億活躍用戶的努力,巴西人們將會跟我們看到同樣的新聞。【責任編輯/閆紅玉】

    來源:TECH2IPO / 創見

    IT時代網(關注微信公眾號ITtime2000,定時推送,互動有福利驚喜)所有原創文章版權所有,未經授權,轉載必究。
    創客100創投基金成立于2015年,直通硅谷,專注于TMT領域早期項目投資。LP均來自政府、互聯網IT、傳媒知名企業和個人。創客100創投基金對IT、通信、互聯網、IP等有著自己獨特眼光和豐富的資源。決策快、投資快是創客100基金最顯著的特點。

    相關文章
    這個人有多厲害?他發明了驗證碼,讓全世界都心甘情愿幫他干活
    宗寧:驗證碼的本意是安全而不是困難,起碼成功遏制了黃牛
    驗證碼這種反人類的存在,早該取締了
    12306奇葩驗證碼背后的反思

    精彩評論