趁著中國版 Prisma 的發布,我們今天復盤一下深度學習的圖像應用。
把計算機 “調教” 成梵高
似乎歐洲國家對藝術這件事比其他地區更有群眾基礎。早在 2016 年 Prisma 大火的一年之前,就有三個德國研究員想把計算機調教成梵高。
這三個研究員名字分別叫做萊昂 · 蓋提斯(Leon Gatys),亞歷山大 · ???Alexander Ecker)和馬蒂亞斯 · 貝特格(Matthias Bethge),來自德國圖賓根大學(University of Tübingen)的 Bethge 實驗室。他們研發了一種算法,模擬人類視覺的處理方式。具體是通過訓練多層卷積神經網絡(CNN),讓計算機識別,并學會梵高的 “風格”、然后將任何一張普通的照片變成梵高的《星空》。
Deep Art 首頁貼出得到一張 “梵高風格” 圖片的步驟。第一步,吸收用戶拍攝的照片。第二步,讓計算機學會星空圖的風格。第三步,計算機輸出自己做的“新畫”。
在人類的視覺系統中,從眼睛看到一件實體,到在腦中形成圖像的概念,中間經歷了無數層神經元的傳遞。底層的神經元獲取到的信息是具體的,越到高層越抽象。
這三個德國人發現,如果用計算機模擬這個網絡,將每一層的結構分析出來,能看到:在采樣過程中,底層網絡對于圖像的細節表達得特別清楚,越到高層像素保留得越少,輪廓信息越多。
所謂深度學習(Deep Learning)中的 “深度(Deep)” 即意為層數。神經網絡的每一層都會對圖片特征進行提取,而 “藝術風格” 則是各層提取結果的疊加。
這三個德國人把他們的上述發現寫成了兩篇論文:《藝術風格的神經算法(A Neural Algorithm of Artistic Style)》,和《利用神經卷積網絡進行紋理合成(Texture Synthesis Using Convolutional Neural Networks)》,在學術圈引起極大的討論。
“起初,我們只是想創造一個關于神經科學的新鮮事物。而藝術人工神經網絡的狀態與人類的視覺系統有頗多相似之處。所以后來我們覺得,可以對圖片做更有趣的處理。” 萊昂 · 蓋提斯對深藍 Deeper Blue 說。
論文發表后不久,他們便建立了一家名為 Deep Art 的初創公司,著手實現他們在論文里提出的想法。
Deep Art 網站,圖像制作界面。Deep Art 提供多種藝術風格選項,圖像制作完成后需發至用戶郵箱。圖片來源: https://deepart.io/hire/
用戶在 Deep Art 網頁上上傳自己的照片,然后通過 Deep Art 提供的 “機器人梵高” 進行新畫創作。整個過程需要等待幾個小時讓計算機進行數據運算和處理。用戶可以選擇清晰程度不等的作品。用戶可以花上 19 歐買一張適合明信片用的作品,或者多掏 100 歐,買一張大尺寸油畫級別的。
萊昂 · 蓋提斯們做的事情并不是美圖秀秀的濾鏡。在 Deep Art 出來之前,已經有很多致敬莫奈與梵高的濾鏡類應用,但核心原理和 Deep Art 完全不同,比如 2010 年上架的 Mobile Monet, Van Gogh Camera 。
Camera Monet 與 Van Gogh Camera的界面展示。這兩款濾鏡軟件,都能講用戶照片渲染成某種藝術效果。但核心原理和Deep Art使用的卷積神經網絡完全不同。(深藍制圖)。
如果我們將同一張圖片放入 Van Gogh Camera 中,Van Gogh Camera 會按照程序員事先內置的 “公式”,計算圖中每一個像素點,最后輸出一張梵高風格的照片。但只要我們想將圖片風格從梵高換到畢加索,程序員就必須重新寫一套代碼,更改計算 “公式”。
而在 Deep Art 中,編寫 “公式” 的程序員是卷積神經網絡(CNN),只需輸入梵高的《星空》,卷積神經網絡便能自動提取這幅畫作的風格特征,并量化成具體公式。也就是說,藝術史上所有的作品都能作為濾鏡來源。
“卷積神經網絡可以被看做是一個機器藝術家。” 萊昂 · 蓋提斯說。
從德國到俄羅斯
2016 年年初,俄羅斯計算機工程師阿列克謝 · 莫伊謝延科夫(Alexei Moiseyenkov)讀到了這三個德國人的論文。他敏銳地嗅到,德國人做的遠遠不夠,這項技術在消費級市場仍是一片空白。
隨后他組建了一個四人團隊,研發了 Prisma,力求做到:免費,更快,更簡單。“ 兩個月研究數學模型,一個半月開發。” 莫伊謝延科夫說。
“ Prisma 第一次將這項技術成功商業化。他們充分考慮了智能手機覆蓋率的飛速增長,并且細致研究了用戶行為。Prisma 接入的是以億數量級的市場。” 《莫斯科時報》這樣報道他們:“ 誰抓住了用戶需求,誰就能成為億萬富翁。”
Prisma 的橫空出世,算是俄羅斯互聯網圈子少有的高光時刻。2016年6月中旬,這款應用剛在 iOS 上發布,15 天內下載量 750 萬,火遍四十個國家。
巨大的成功甚至讓開發團隊措手不及,不得不以每天擴大一倍的速度提升服務器處理能力。
“看起來,整個俄羅斯都被我們征服了。” 莫伊謝延科夫隨后在 Facebook 上寫下了這句話。8 月 2 日,Prisma 全球范圍內已獲得超過 5000 萬用戶。
坐擁 2300 萬粉絲的俄國總統梅德韋杰夫也成為 Prisma 的用戶。他在 Instgram 上曬出一張 Prisma 作品,迅速獲得 8.7 萬個贊。
Prisma 比 Deep Art 先進的地方在于,它大大縮短了圖像處理的時間。在用戶還沒有達到十幾億數量級的時候,每張照片在 Prisma 系統內的處理時間只有 20 秒。其次,Prisma 是一款免費手機應用,相比網頁版的 Deep Art, 無疑具有更多的用戶基數。
20秒,全球的某個角落,一個用戶上傳照片,他的照片被傳送到位于莫斯科的服務器上,Prisma利用人工智能和神經網絡進行處理,然后經 “風格化” 后的圖片再返回用戶手機。
這個速度在業內是頂級的。為什么這么快?
“一定是下了血本,”一位來自國內著名人臉識別技術公司的工程師告訴深藍 Deeper Blue,“在我當時搭建的框架之下,用普通筆記本的計算能力,做一張這樣的圖有可能需要幾個小時。”
德國人萊昂 · 蓋提斯則對深藍 DeeperBlue 猜測道:“我認為他們訓練了一個前饋神經網絡來制造圖片。”
“Prisma 沒有完全依賴機器學習,而是對一些關鍵的內容加以控制。”一位業內人士則對深藍 Deeper Blue 說,“例如,在海量的用戶上傳內容中,一定有相當一部分比例是人像,而相對于原始算法,Prisma 對面部細節的處理似乎更勝一籌,也許他們專門加入了對面部的識別和控制。”
據莫伊謝延科夫自己介紹,Prisma 一共用了三組神經網絡,它們分工明確:兩組神經網絡負責的風格提取和照片制作,還有一組神經網絡作為后臺,為整個計算過程加速。
相比之下,Deep Art 更像是精工細作的手藝人。萊昂 · 蓋提斯認為自家的原始算法雖然慢一些,但在細節表現力上更勝一籌—— “是真正的藝術品。” Deepart.io 提供的收費高分辨率大圖,堪比一副掛在博物館墻上的畫。
Deep Art 主頁上,關于作品定價的界面展示。圖片來源:https://deepart.io/pricing/
“他們的風格化工作比最初的工作要弱了些,我認為他們是做了一些較低級別的圖片處理,以掩蓋風格化的不足,例如,加強了邊緣的表現。” 萊昂 · 蓋提斯對深藍 Deeper Blue 說,他認為 Prisma 犧牲了藝術質量而求速度。
返回