“賈維斯,你在嗎?”
“隨時(shí)待命,先生。”
托尼·斯塔克隨后給出了一系列命令,穿上了他超酷的鋼鐵俠套裝。
賈維斯甚至警告斯塔克先生,要先完成TB量級(jí)計(jì)算才可以嘗試實(shí)際飛行,但托尼卻自以為是地回答道:“賈維斯,有時(shí)侯,你必須在走路前學(xué)會(huì)跑步”。
這看起來(lái)像是與私人助理的普通對(duì)話,對(duì)吧?
但賈維斯并不是人類,而是一個(gè)能夠流暢對(duì)話,并且全天候提供服務(wù)的智能AI助手。
如果你想要在現(xiàn)實(shí)生活中重建賈維斯,自然語(yǔ)言處理(下稱NLP)將是你要考慮的第一個(gè)技術(shù)。
NLP屬于AI的子領(lǐng)域,它使機(jī)器理解語(yǔ)音或文本形式的人類語(yǔ)言,進(jìn)而減小了人與機(jī)器之間的交流差距。
如今市面上已經(jīng)有了好幾個(gè)虛擬助手,例如Siri和Cortana,我們是否已經(jīng)做好了推出賈維斯的準(zhǔn)備?讓我們回顧一下NLP在過(guò)去幾十年中的使用,以及它未來(lái)的發(fā)展方向。
NLP的起源
艾倫·圖靈于1950年發(fā)表的論文《計(jì)算機(jī)械與智能》中提出了一個(gè)革命性的問(wèn)題:“機(jī)器可以思考嗎?”20世紀(jì)40年代就在機(jī)器翻譯中瞥見(jiàn)了NLP,如今流行的“圖靈測(cè)試”(也被稱為模仿游戲)為機(jī)器理解復(fù)雜的語(yǔ)言學(xué)創(chuàng)造了可能。
為了滿足圖靈的標(biāo)準(zhǔn),機(jī)器必須先理解人類的自然語(yǔ)言,才能構(gòu)建出類似人類的智能回應(yīng)。
隨后,有許多人試圖通過(guò)圖靈測(cè)試。ELIZA、SHRDLU和PARRY都NLP領(lǐng)域的先驅(qū)。在NLP研究短暫停滯之后,由美國(guó)政府創(chuàng)建的自動(dòng)語(yǔ)言處理咨詢委員會(huì)(ALPAC)停止了對(duì)NLP研究的資助,NLP在20世紀(jì)80年代才迎來(lái)了“統(tǒng)計(jì)革命”的新領(lǐng)域。
NLP自20世紀(jì)80年代以來(lái)的發(fā)展非常有趣,當(dāng)時(shí)統(tǒng)計(jì)方法的應(yīng)用增長(zhǎng)顯著。
機(jī)器翻譯時(shí)代
機(jī)器翻譯可以說(shuō)是教授機(jī)器人類自然語(yǔ)言的起源。Google翻譯如今的簡(jiǎn)單易用可以追溯到20世紀(jì)30年代,當(dāng)時(shí)機(jī)器翻譯開(kāi)始申請(qǐng)專利。
1954年見(jiàn)證了機(jī)器翻譯的曙光,科學(xué)家進(jìn)行的Georgetown-IBM實(shí)驗(yàn)將60多個(gè)俄語(yǔ)句子自動(dòng)翻譯成了英語(yǔ)。在80年代末期,統(tǒng)計(jì)型機(jī)器翻譯(SMT)搶走了規(guī)則型翻譯的風(fēng)頭。
當(dāng)時(shí)IBM的Candide Project項(xiàng)目人員研究了加拿大議會(huì)辯論報(bào)告中的法語(yǔ)和英語(yǔ)文本語(yǔ)料庫(kù),放棄了語(yǔ)言學(xué)規(guī)則,選擇計(jì)算概率。
同時(shí),日本研究團(tuán)隊(duì)也開(kāi)啟了基于語(yǔ)料庫(kù)的翻譯或基于示例的機(jī)器翻譯(EBMT)的研究,該團(tuán)隊(duì)曾使用示例或語(yǔ)料庫(kù)翻譯新單詞。
直到1994年,Systran的機(jī)器翻譯可以在幾個(gè)CompuServe聊天論壇中獲取。1997年,AltaVista發(fā)布的BabelFish(最古老的在線翻譯之一,后來(lái)由Yahoo接管)可以在網(wǎng)頁(yè)瀏覽器上進(jìn)行36組語(yǔ)言的翻譯。
2001年,研究人員開(kāi)始提倡基于語(yǔ)法的機(jī)器翻譯(翻譯語(yǔ)法單位而非單詞)。2003年至2005年,研究建立了基于短語(yǔ)的機(jī)器翻譯,這也在2006年推動(dòng)了Google翻譯。Bing和Yandex于2009年和2011年推出了自己的翻譯器。
Google為機(jī)器翻譯悄悄研究了十年循環(huán)神經(jīng)網(wǎng)絡(luò),之后Google翻譯運(yùn)用了經(jīng)龐大的數(shù)據(jù)集訓(xùn)練的神經(jīng)網(wǎng)絡(luò),迎來(lái)了商業(yè)規(guī)模翻譯領(lǐng)域的質(zhì)變飛躍。
Google翻譯的引擎,被稱為Google神經(jīng)機(jī)器翻譯系統(tǒng)(GNMT),在2016年就可以輕松翻譯10,000組語(yǔ)言。
自NMT出現(xiàn)以來(lái),人們一直在嘗試混合翻譯方法,利用短語(yǔ)或基于規(guī)則的機(jī)器翻譯來(lái)彌補(bǔ)NMT的不足。
這是垃圾郵件嗎?
被廣泛使用的電子郵件作為當(dāng)前一種數(shù)字通信形式,常伴隨著垃圾郵件的問(wèn)題。最初,人們使用IP黑名單和郵件標(biāo)題檢查來(lái)識(shí)別垃圾郵件,但是這些方法在單獨(dú)部署時(shí)很容易被繞開(kāi)。
因此,對(duì)電子郵件內(nèi)容以及非文本元素進(jìn)行分析的需求隨之提高,這意味著NLP進(jìn)入了垃圾郵件領(lǐng)域。1998年,有人提出使用Bayesian方法來(lái)過(guò)濾垃圾郵件。2002年,同一戰(zhàn)線的保羅·格雷厄姆提出了一項(xiàng)商業(yè)上可行的垃圾郵件處理計(jì)劃。
Bayesian方法是統(tǒng)計(jì)NLP的最早方法之一,與通常的基于文本的過(guò)濾器不同,它可以自動(dòng)從可能為垃圾郵件的內(nèi)容中學(xué)習(xí)新詞,并使用其不斷擴(kuò)大的詞匯量更好地對(duì)郵件進(jìn)行分類。
Bayesian過(guò)濾器通過(guò)仔細(xì)檢查郵件標(biāo)題內(nèi)容、詞組和短語(yǔ),降低了誤報(bào)率,并提高了識(shí)別垃圾郵件的準(zhǔn)確性,運(yùn)用于許多現(xiàn)代電子郵件客戶端。
為了進(jìn)一步減少垃圾郵件的數(shù)量,Google 在2015年宣布要在垃圾郵件過(guò)濾器中運(yùn)用神經(jīng)網(wǎng)絡(luò),使垃圾郵件率降到0.1%。
嗨,Siri,今天天氣怎么樣?
NLP領(lǐng)域的重要運(yùn)動(dòng)有1962年IBM的Shoebox以及20世紀(jì)70年代的Harpy,它們代表數(shù)字語(yǔ)音識(shí)別的前身。直到20世紀(jì)80年代中期,Hidden Markov被認(rèn)為是語(yǔ)音建模中的高效方法。
IBM開(kāi)發(fā)的Watson在問(wèn)答節(jié)目Jeopardy!中取得了勝利。2011年,智能虛擬助手勢(shì)頭強(qiáng)勁,蘋(píng)果在同年的iPhone 4S上推出 Siri。
2014年,Amazon在智能揚(yáng)聲器Echo中引入了Alexa。Google Assistant(最初稱為Google Now)和Microsoft的Cortana也緊隨其后。
AI語(yǔ)音助手迅速入駐應(yīng)用程序和設(shè)備(例如Google Home)。截止2019年1月,Amazon銷售了超過(guò)1億臺(tái)配備Alexa的設(shè)備。
聊天機(jī)器人的降臨
虛擬助手有了一個(gè)近親——聊天機(jī)器人,由AI驅(qū)動(dòng),可以通過(guò)通訊App和在線聊天來(lái)進(jìn)行近似人類的對(duì)話。
ELIZA(1966)、PARRY(1972)和試圖講笑話的Jabberwacky(1988)之類的聊天機(jī)器人,提出了人機(jī)對(duì)話的概念。隨著計(jì)算機(jī)語(yǔ)言和自然語(yǔ)言處理技術(shù)的進(jìn)步,AI聊天機(jī)器人現(xiàn)在可以通過(guò)了解用戶意圖、提供相關(guān)輸入來(lái)與用戶進(jìn)行順暢的對(duì)話。
因AI聊天機(jī)器人能夠提供全天候服務(wù),解決客戶投訴等簡(jiǎn)單問(wèn)題,客戶服務(wù)得到了極大的提高。到2021年,由NLP支持的AI聊天機(jī)器人可以完成全球15%的客戶交互服務(wù)。
察覺(jué)言語(yǔ)背后的情緒
除了單純的文本分析之外,研究人員還在努力識(shí)別高度非結(jié)構(gòu)化內(nèi)容以及語(yǔ)境意義。波·龐等人于2002年完成了早期關(guān)于辨別網(wǎng)絡(luò)上電影評(píng)論的消極還是積極的計(jì)算機(jī)語(yǔ)言技術(shù)(Naive Bayes、SVM和MaxEnt)的研究。
隨后,波·龐和莉蓮·李在2004年發(fā)表論文,探討了將“主觀性”(表達(dá)作者自己的觀點(diǎn)和特定詞語(yǔ)的相關(guān)性)帶入情感分類的根本影響。
這些文章,以及彼得·T·特尼的文章,在NLP領(lǐng)域掀起了一場(chǎng)革命,因?yàn)榫W(wǎng)絡(luò)上日益增長(zhǎng)的語(yǔ)言交流(社交媒體、博客、新聞推送)都是為了理解人們的想法而開(kāi)發(fā)的。
情感分析通常也被稱為觀點(diǎn)挖掘。路透社等信息巨頭都開(kāi)發(fā)了自己的內(nèi)部情感引擎,來(lái)衡量千家公司的新聞情緒,以改善交易決策。
直到2009年,Google根據(jù)他們的研究論文和專利,改進(jìn)了搜索引擎。這些研究論文和專利探索了情緒分析,以總結(jié)基于情緒的評(píng)論。
2010年,Twitter的信息也被用于分析,以評(píng)估英國(guó)大選期間的公眾輿論。一家名為L(zhǎng)inguamtics的公司檢查了超過(guò)13萬(wàn)個(gè)Twitter帳戶。
盡管人們對(duì)分析和結(jié)果持懷疑態(tài)度,但它足以使科技界興奮不已,導(dǎo)致他們也想對(duì)2012年的美國(guó)總統(tǒng)大選進(jìn)行嘗試。據(jù)2015年報(bào)道,Intel和IBM等行業(yè)的領(lǐng)導(dǎo)者使用情緒分析技術(shù)來(lái)解讀員工的情緒。
表情符號(hào)、諷刺以及語(yǔ)言的復(fù)雜性給情緒分析帶來(lái)了挑戰(zhàn),然而各公司還是迅速投資情緒分析技術(shù),以理解公眾情感、擴(kuò)大客戶體驗(yàn)并收集消費(fèi)者見(jiàn)解。
NLP的未來(lái)在哪里?
除了本文提到的NLP的主要應(yīng)用之外,NLP也可以解決主題建模、文檔摘要和字符識(shí)別等問(wèn)題。
當(dāng)前NPL場(chǎng)景主要以深度學(xué)習(xí)為主。在回歸神經(jīng)網(wǎng)絡(luò)的驅(qū)動(dòng)下,基于深度學(xué)習(xí)的NLP正在使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)。
而該算法已被證明對(duì)情感分析、問(wèn)題解答系統(tǒng)和機(jī)器翻譯在一定程度上有效。深度學(xué)習(xí)模型還用于加速或整合NLP任務(wù),包括詞性標(biāo)注、語(yǔ)法分析和命名實(shí)體識(shí)別。
人們對(duì)NLP越來(lái)越興奮,也許十年后,賈維斯就會(huì)成為現(xiàn)實(shí),而你就可以去拯救世界了。【責(zé)任編輯/古飛燕】
(原文來(lái)自Hackernoon,作者Ida Jessie Sagina)
來(lái)源:棧外
IT時(shí)代網(wǎng)(關(guān)注微信公眾號(hào)ITtime2000,定時(shí)推送,互動(dòng)有福利驚喜)所有原創(chuàng)文章版權(quán)所有,未經(jīng)授權(quán),轉(zhuǎn)載必究。
創(chuàng)客100創(chuàng)投基金成立于2015年,直通硅谷,專注于TMT領(lǐng)域早期項(xiàng)目投資。LP均來(lái)自政府、互聯(lián)網(wǎng)IT、傳媒知名企業(yè)和個(gè)人。創(chuàng)客100創(chuàng)投基金對(duì)IT、通信、互聯(lián)網(wǎng)、IP等有著自己獨(dú)特眼光和豐富的資源。決策快、投資快是創(chuàng)客100基金最顯著的特點(diǎn)。
小何
來(lái)自: 美國(guó)如此忌憚華為 顯示出對(duì)中國(guó)崛起的深層憂慮--IT時(shí)代網(wǎng)
小何
來(lái)自: 彭博社:六大中國(guó)手機(jī)品牌在全球挑戰(zhàn)三星蘋(píng)果霸主地位--IT時(shí)代網(wǎng)
小何
小何
來(lái)自: 少年頭條對(duì)壘中年騰訊:解局兩代互聯(lián)網(wǎng)公司商業(yè)之戰(zhàn)--IT時(shí)代網(wǎng)