著名色情網站Pornhub使用AI識別AV

總部位於加拿大的「Pornhub」是一個免費色情網站,在美國英國都有分公司,是世界三大色情網站之一。

他們根據訪客在線時長,製作了一張「誰最持久」的世界地圖。大部分的國家觀看色情影片的時間在7~10分鐘之間,包括美國、歐洲、澳大利亞等等,非洲國家時間偏長,大多超過11分鐘。

最奇妙的是中國大陸,統計數據顯示,大陸人平均觀看色情影片時間最長,平均14分鐘左右。

上圖來自人民網

Pornhub

前幾天,成人色情網站Pornhub宣布,將基於面部識別技術來自動識別網站中的AV視頻。在接下來的一年,該公司計劃識別其視頻庫中所有500萬個視頻,並對視頻進行高級分類:如場景(私人或公共場所)、女演員發色等。

新的AI系統讓用戶手動給視頻打標籤。下圖顯示了Pornhub的機器學習模型工作步驟:

1.從數千張圖片中獲得某色情明星的相關數據;

2.去除不正確的數據及模糊圖像;

3.訓練機器學習模型;

4.在包含數百萬視頻的視頻庫上訓練模型;

5.使用反饋循環優化模型(回到第3步)。

每天訪問量達8千萬,上傳10000個成人短片,給Pornhub造成巨大的工作壓力。

Pornhub副總裁CoreyPrice說到開發該機器學習模型的初衷:「我們希望為粉絲們提供他們想要的東西,我們的新模型將能夠為他們搜索到更準確的結果。」

AI如何鑒黃

目前,尚在測試階段的Pornhub模型一個月內只掃描了大約5萬個視頻。以這個速度,掃描整個網站將需要近十年的時間,但還有優化的空間。

目前,各視頻及直播平台的大流量促進了對「鑒黃」的需求,但使用人力鑒黃的成本高昂,且性價比低。據了解,直播平台映客曾經聘用800多人進行7*24小時的內容審核,占用了7000平米的審核基地。但事實上,直播的違規比例僅占0.04%甚至更低。

相比之下,AI審核則大大節約了時間和資金。全球各大科技公司也在積極投入使用AI審核違規內容:

Facebook正在開發一項新的系統工具,可以在直播視頻中對違規內容進行自動標記;雅虎也對外開源了一套深度學習神經網絡,專門用於自動檢測圖片是否含有色情內容;

國內的騰訊、阿里、百度、網易等多家公司,都已開始布局AI鑒黃這一具有潛力的產業。

插一句:當年中科院計算所有一個組在做這方面的國家項目,黃色內容識別。人家都是去國外採購影片和輪子的東東回來做訓練數據的……

隨著人工標註的數據越來越多,鑒黃的手段也越加豐富。目前常見的識別方法有:

  • 機器學習+MD5識別:構建數據訓練一個機器學習模型,識別視頻圖像的特徵+文件名文本特徵+文件格式,大小等特徵;
  • 識別動作:圖像識別人物行為一直是一個難點,因為特定圖片/視頻中的人物、場景複雜多變,目前的困難是訓練數據不足。不過,Google在今天發布了一個AVA人類動作識別數據集,絕佳助攻。(請看小雞今天推送的第三條);
  • 數據識別:比如Facebook的點讚、評論數,直播產品的送禮數、在線人數。

 

发表评论