鑒黃師工作輕松,有意思,但身體要過硬。外界眼中的鑒黃師,是一份令人想入非非的職業(yè)。關(guān)于鑒黃師的段子層出不窮,“帶薪看片”可能是最大的誤解。
鑒黃師的工作誕生于20世紀(jì)80年代。當(dāng)時(shí),公安部應(yīng)“掃黃打非”需求設(shè)立這一新崗位。中國(guó)第一批鑒黃師以女民警居多。
互聯(lián)網(wǎng)普及,技術(shù)發(fā)展演進(jìn),對(duì)鑒黃師的要求也在不斷迭代:從最初的“肉眼鑒黃”,已發(fā)展至AI技術(shù)鑒別階段。AI鑒黃師不再需要每天看圖,更接近碼農(nóng)工作狀態(tài),面對(duì)一串串冰冷枯燥的程序代碼。
與躲在小黑屋看片的摳腳大漢刻板印象截然不同,AI鑒黃師的要求門檻極高,高學(xué)歷幾乎成為職業(yè)標(biāo)配。
陳宇(化名)2017年從香港科技大學(xué)博士畢業(yè),隨后入職騰訊安全團(tuán)隊(duì)。這支AI鑒黃團(tuán)隊(duì)成員不過10人,幾乎清一色博士。他們主要工作內(nèi)容是,打造一套模擬人腦的多模態(tài)系統(tǒng),能夠?qū)ι纥S的圖像、音頻、視頻等進(jìn)行AI鑒別。一言以蔽之,鑒黃師的工作不再是“黃圖連連看”,更像從事人工智能研究的程序員。
網(wǎng)絡(luò)信息龐雜,形式多樣,鑒別難度增大。AI鑒黃師不僅要具備編程技能,智商過硬,更要深入一線,實(shí)時(shí)關(guān)注行業(yè)走向。用陳宇的話說,鑒黃如同諜戰(zhàn)。他們時(shí)常要潛入黑產(chǎn)群,了解一線,摸清暗語。
據(jù)全國(guó)“掃黃打非”辦公室公布的信息,2020年全國(guó)各地“掃黃打非”部門共處置各類網(wǎng)絡(luò)有害信息1200余萬條,查辦“掃黃打非”相關(guān)網(wǎng)絡(luò)案件5800余起。
在虛擬世界,AI鑒黃師與看不見的另一端或短兵相接,或遙遙相望,雙方從未停止攻守一塊叫“人性”的高地。
鑒黃師需要價(jià)值觀面試
2016年,騰訊的AI鑒黃小分隊(duì)初步成立。如今,團(tuán)隊(duì)已有10人,陳宇是其中一員。團(tuán)隊(duì)成員大多是畢業(yè)于清華、中科院、華中大等知名高校的博士生。
這些高材生要明白的第一件事,就是團(tuán)隊(duì)干的不是“帶薪看片”的活兒。起初,團(tuán)隊(duì)成員都是男性,后來分工越來越細(xì),女性也開始加入進(jìn)來。其中一名主要負(fù)責(zé)聲學(xué)場(chǎng)景分類的女生,來的時(shí)候并不知道工作內(nèi)容是鑒黃。高知女性從事鑒黃工作,首先需要克服心理障礙。
“一開始有點(diǎn)不好意思,不知如何向朋友介紹職業(yè),但很快就習(xí)慣了。在技術(shù)人的眼中,看到的不是別的,是各種特征和規(guī)律。”該女性成員如是描述自己的心路歷程。不用去聽,就把聲音當(dāng)成信號(hào),分析語譜圖(針對(duì)語音數(shù)據(jù)的頻譜分析視圖)。那時(shí)候,國(guó)內(nèi)鮮少有人做聲音鑒黃,在團(tuán)隊(duì)合力推出第一版聲音鑒黃系統(tǒng)后,她逐漸有了成就感。
鑒黃工作難免有尷尬時(shí)刻。一次,團(tuán)隊(duì)一名女同事正在工位分析圖片,為看得清楚,把圖片放大了好幾倍,碰巧此時(shí)正好有其他部門的同事經(jīng)過。頓時(shí),空氣中都彌漫著窘迫。
應(yīng)聘者除了技術(shù)要過硬,更重要的是要通過價(jià)值觀考核。騰訊AI鑒黃團(tuán)隊(duì)專門設(shè)有價(jià)值觀面試。
“(價(jià)值觀面試)主要考核應(yīng)聘者從事這一職業(yè)的堅(jiān)定程度。工作可能會(huì)遇到一些誘惑,比如,外部朋友被封號(hào)請(qǐng)你幫忙解決,或者一些人聯(lián)系你去做一些技術(shù)漏洞,讓你留一些技術(shù)后門。你怎么選擇?”陳宇介紹。
運(yùn)營(yíng)負(fù)責(zé)人告訴時(shí)代周報(bào)記者,嚴(yán)格篩選出理念、價(jià)值觀等大體統(tǒng)一的成員,即使行業(yè)瘋狂拼搶AI人才,鑒黃團(tuán)隊(duì)仍保持基本穩(wěn)定。
鑒黃工作就像諜戰(zhàn)劇
鑒黃是否真的需要一支如此精挑細(xì)選的博士團(tuán)隊(duì)?答案是肯定的。
網(wǎng)絡(luò)色情內(nèi)容的展現(xiàn)形式多種多樣,既有靜態(tài)文字、圖片,也有動(dòng)態(tài)的視頻、音頻,僅通過“肉眼”也不能識(shí)別。
時(shí)代周報(bào)記者了解到,色情黑產(chǎn)高利高企,從業(yè)者達(dá)上百萬人,同樣是“高科技人才”“AI技術(shù)專家”。他們與鑒黃師的對(duì)抗實(shí)時(shí)發(fā)生。
“我們有時(shí)候覺得很像諜戰(zhàn)劇,雙方斗智斗勇,從明顯的色情內(nèi)容對(duì)抗,到不易察覺的色情內(nèi)容對(duì)抗,再到AI對(duì)抗,這是持續(xù)迭代的過程。”陳宇介紹。
說是諜戰(zhàn),并不夸張。此前在各大社交平臺(tái)頻繁出現(xiàn)的“新茶”“喝茶”等內(nèi)容,文字下方的配圖,用顯微鏡都難以找到的一片茶葉上,是年輕女孩的自拍照。這是色情行業(yè)的引流暗語。
一些所謂的“學(xué)生群”“培訓(xùn)群”,某個(gè)美女頭像成員說“網(wǎng)課有位置”。這是組織者向群?jiǎn)T發(fā)送“我可以約”;“早安”是指早上有時(shí)間;“晚會(huì)”是說晚上有時(shí)間。
陳宇他們時(shí)常在這些群臥底。“實(shí)時(shí)關(guān)注行業(yè)黑話變化,總得知道他們到底在說些什么。統(tǒng)一收集之后,這些就成了我們算法訓(xùn)練的素材。”陳宇說。
無人工,不智能。這些復(fù)雜且隱蔽的色情內(nèi)容,即便AI,最初也不一定搞得定,需技術(shù)人員花大量時(shí)間去研究黑產(chǎn)中的具體行為,然后通過人工輔助機(jī)器標(biāo)注、訓(xùn)練、識(shí)別。
“模型天天都在學(xué)習(xí)和訓(xùn)練,關(guān)注最近出現(xiàn)的新詞、黑話。”陳宇說。
在此過程中,模型也需排除許多干擾。比如,醫(yī)學(xué)中的宮頸糜爛圖片、雕塑和油畫中的裸露畫面。不同場(chǎng)景下,模型界定的標(biāo)準(zhǔn)也需動(dòng)態(tài)調(diào)整。
搭建、運(yùn)行如此一套復(fù)雜的AI鑒黃系統(tǒng),真不是普通人干得了的。目前,即便這支全員博士的小分隊(duì),鑒黃準(zhǔn)確率也很難達(dá)到100%:明顯的色情內(nèi)容可以達(dá)到99.99%,輕微人工對(duì)抗內(nèi)容為80%,專業(yè)AI對(duì)抗在60%左右。
“AI鑒黃技術(shù)在文字類和靜態(tài)圖像中的準(zhǔn)確率較高,視頻類次之,音頻類較低。人工智能對(duì)軟色情的鑒別還有短板。AI鑒黃可以大大減輕人工鑒黃師的工作量,但目前仍有誤鑒率。”9月18日,賽迪顧問人工智能產(chǎn)業(yè)研究中心高級(jí)分析師徐暢告訴時(shí)代周報(bào)記者。
在陳宇看來,目前已經(jīng)不再是單純地音頻鑒黃或者視頻鑒黃,而是用多模態(tài)把信息聚合在一起,模擬人腦思維過程,準(zhǔn)確率比單純的音頻或視頻鑒別高得多。
AI鑒黃還能擴(kuò)展應(yīng)用?
AI技術(shù)迅猛發(fā)展的今天,科技企業(yè)紛紛布局AI鑒黃。
例如成立于2014年的圖普科技,成立之初便基于計(jì)算機(jī)視覺技術(shù)搭建云平臺(tái)推出內(nèi)容審核服務(wù),用于識(shí)別色情、暴恐、時(shí)政敏感信息及小廣告等違規(guī)內(nèi)容;今年6月,阿里巴巴安全部公開招募“AI鑒黃一日體驗(yàn)官”,提供1000元日薪、1T硬盤、1年網(wǎng)盤會(huì)員、路費(fèi)打包,下午茶不限量供應(yīng)。這一度引發(fā)輿論熱議。
國(guó)外巨頭的AI鑒黃走得更早。谷歌在2018年就推出免費(fèi)AI工具軟件,輔助人類鑒黃師對(duì)兒童性虐待內(nèi)容(CSAM)的圖像進(jìn)行分類和鑒別。AI技術(shù)發(fā)展多年,如何落地真正改變?nèi)藗兩睿冀K是科技企業(yè)的突破難點(diǎn),AI鑒黃正是一個(gè)不錯(cuò)的應(yīng)用場(chǎng)景。學(xué)術(shù)研究需要真正落地去解決社會(huì)問題,而不僅是發(fā)表在期刊上的“空中樓閣”。
如今,騰訊AI鑒黃團(tuán)隊(duì)的技術(shù)成果主要運(yùn)用于騰訊內(nèi)外部的直播、短視頻等公開場(chǎng)景,針對(duì)騰訊平臺(tái)上的公開場(chǎng)景內(nèi)容,結(jié)合用戶舉報(bào)信息進(jìn)行鑒別,也會(huì)通過騰訊云對(duì)外輸出。
徐暢向時(shí)代周報(bào)記者介紹,用于AI鑒黃的各類技術(shù),還可應(yīng)用于安防、交通、金融、商業(yè)等多個(gè)場(chǎng)景,具體來說,可用于生物特征識(shí)別、人臉識(shí)別、遠(yuǎn)程身份認(rèn)證、公安技偵、AI奢侈品鑒定、筆跡鑒定、電子支付、聲紋鎖控、語音交互、字幕制作、語音質(zhì)檢等。
IDC全球人工智能支出指南預(yù)測(cè),未來4年,全球人工智能相關(guān)支出將從2020年的501億美元增至2024年的1100多億美元。
2020年,在新冠肺炎疫情的影響下,中國(guó)人工智能加速落地,助力抗疫與復(fù)工復(fù)產(chǎn)。AI技術(shù)在病毒基因檢測(cè)、醫(yī)療影像分析等各領(lǐng)域都得到推廣普及。艾媒咨詢數(shù)據(jù)顯示,2020年中國(guó)人工智能行業(yè)核心產(chǎn)業(yè)市場(chǎng)規(guī)模超過1500億元,預(yù)計(jì)在2025年超過4000億元。
在陳宇看來,AI鑒黃可以幫助凈化網(wǎng)絡(luò)環(huán)境,是一項(xiàng)科技向善的技術(shù)。
“科技向善”這一理念的提出者保羅·米勒曾說,“希望確保技術(shù)公司專注于回饋世界,而不僅僅是占領(lǐng)我們的屏幕時(shí)間”。【責(zé)任編輯/常青】
來源:時(shí)代周報(bào)
IT時(shí)代網(wǎng)(關(guān)注微信公眾號(hào)ITtime2000,定時(shí)推送,互動(dòng)有福利驚喜)所有原創(chuàng)文章版權(quán)所有,未經(jīng)授權(quán),轉(zhuǎn)載必究。
創(chuàng)客100創(chuàng)投基金成立于2015年,直通硅谷,專注于TMT領(lǐng)域早期項(xiàng)目投資。LP均來自政府、互聯(lián)網(wǎng)IT、傳媒知名企業(yè)和個(gè)人。創(chuàng)客100創(chuàng)投基金對(duì)IT、通信、互聯(lián)網(wǎng)、IP等有著自己獨(dú)特眼光和豐富的資源。決策快、投資快是創(chuàng)客100基金最顯著的特點(diǎn)。
小何
小何
來自: 彭博社:六大中國(guó)手機(jī)品牌在全球挑戰(zhàn)三星蘋果霸主地位--IT時(shí)代網(wǎng)
小何
來自: 【人物】滴滴創(chuàng)始人程維回顧與Uber競(jìng)爭(zhēng):中國(guó)互聯(lián)網(wǎng)從來沒有輸過--IT時(shí)代網(wǎng)
小何
來自: 少年頭條對(duì)壘中年騰訊:解局兩代互聯(lián)網(wǎng)公司商業(yè)之戰(zhàn)--IT時(shí)代網(wǎng)