国模叶桐尿喷337p人体,国产乱xxⅹxx国语对白,国产精品人妻无码久久久郑州,国产一区二区内射最近更新,国产一区二区三区不卡在线看

首頁 企業(yè)華院數(shù)據(jù)正文

OpenAI又放大招—Dall---E模型可從文本直接生成圖像!

OpenAI開發(fā)的GPT-3模型可用自然語言指導(dǎo)神經(jīng)網(wǎng)絡(luò)完成各種文本生成任務(wù),Image GPT模型則可用同類型神經(jīng)網(wǎng)絡(luò)生成高質(zhì)量的圖像。在不斷加深對這二者的研究之后,研究人員發(fā)現(xiàn),自然語言與視覺圖像之間的二次元壁可打破。

和GPT-3一樣,DALL·E也是基于Transformer的語言模型,它同時接受文本和圖像數(shù)據(jù)并以單一數(shù)據(jù)流(1280個tokens)形式輸入,使用極大似然的方法訓(xùn)練模型來生成所有的tokens,這種訓(xùn)練流程不僅可以使得DALL-E能生成一個圖像,而且可以以與文本提示一致的方式,重新生成能夠延伸到現(xiàn)有圖像右下角任何矩形區(qū)域。

研究小組發(fā)現(xiàn),生成模型的工作可能對社會產(chǎn)生深遠(yuǎn)影響,他們計劃對DALL類的語言模型如何與社會問題關(guān)聯(lián)進(jìn)行分析,比如,經(jīng)濟(jì)影響、語言模型輸出是否存在偏見、以及該技術(shù)一直存在的道德挑戰(zhàn)。

除此之外,DALL·E可以自動分析復(fù)雜句式生成畫面。視覺效果中顯示的每個標(biāo)題下的圖像示例都是在使用CLIP重新排名后,從512個中選前32張獲得的,但不使用任何手動篩選,除了縮略圖和外部顯示的獨(dú)立圖像。另外,研究小組通過修改實(shí)體對象的屬性和它出現(xiàn)的次數(shù)來測試DALL?E的性能。

同時掌握多實(shí)物屬性以及各部位空間關(guān)系是DALL·E需要面臨的一個全新挑戰(zhàn)。下面這條文本信息 “一只刺猬帶著紅帽子、黃手套、藍(lán)襯衫和綠褲子”,DALL·E為了正確解讀這條信息,不僅要正確地搭配動物的每一件服裝,而且要在不混淆的情況下形成組合(帽子,紅色),(手套,黃色),(襯衫,藍(lán)色)和(褲子,綠色)。

如果實(shí)物數(shù)量較少,DALL·E可控制物體屬性以及它們所處位置,不過正確率取決于文字如何表述。但文字描述的物體一旦增多,DALL·E就容易混淆物體與其顏色之間的關(guān)聯(lián)關(guān)系,生成正確圖像的概率就會大幅度降低。并且,在以下情況下DALL·E在標(biāo)題重述方面很脆弱:可替代的或者與語義等價的標(biāo)題通常不能被準(zhǔn)確的解釋。

由于DALL·E可以控制場景的視角以及渲染場景的3D風(fēng)格,研究小組讓DALL·E從一系列等距角度重復(fù)繪制每個角度下的某個名人的頭部。最后發(fā)現(xiàn),DALL?E可以恢復(fù)旋轉(zhuǎn)頭部的平滑動畫。

DALL·E還能給場景加一些光學(xué)畸變的特效,比如“超廣角魚眼鏡頭”“球面全景圖”,這些發(fā)現(xiàn)激發(fā)研究小組探索DALL·E更多可能性。同時,“極端特寫視圖”和“ x射線”樣式的樣本促使研究小組進(jìn)一步探索DALL·E用橫截面渲染內(nèi)部結(jié)構(gòu)和用微距照片渲染外部結(jié)構(gòu)的能力。

但文本生成圖像的任務(wù)具有不定性:一句話通??僧嫵鰺o數(shù)個合要求的畫面。比如畫“一只日落下坐在草坪上的海豚”,根據(jù)海豚坐在地上的方向,很有必要給這只海豚畫一個陰影,盡管這個細(xì)節(jié)沒有明確提出來。

DALL·E是從三個方面解決這種不定性:改變風(fēng)格、搭配和時間;變換位置畫同一個物體;繪制畫面時為它專門寫一段文字。

由于可靠性不同,DALL·E允許經(jīng)自然語言描述得到圖像的3D渲染效果,這樣它可以定向改變一部分物體屬性、數(shù)量和排列順序,也可以決定從哪個角度、位置渲染場景,按所需方向、光源情況畫圖。與3D渲染引擎不同的是,DALL·E不需要準(zhǔn)確無誤、完整的文本信息。如果文本沒有明確表明某個信息而是將其暗含其中,它會以“填空”的形式將其畫出。

因?yàn)檎Z言具有創(chuàng)作性,所以人們可以描述現(xiàn)實(shí)中的事物、想象中事物,而DALL·E也具備這一能力。它可將碎片式的想法組合起來畫出一個物體,甚至有些物體并不存在這個世界上。研究人員是通過以下兩點(diǎn)發(fā)現(xiàn)它這一特質(zhì)的:將概念和物體的屬性轉(zhuǎn)換出來,再發(fā)揮想象將天馬行空的想法設(shè)計出來。

DALL·E繪制實(shí)物時除了結(jié)合各種天馬行空的概念,在文字處理上還具備以下三種能力:將動物、物體擬人化、動與物結(jié)合、表情符號。

OpenAI開發(fā)的GPT-3模型不需要額外數(shù)據(jù)進(jìn)行訓(xùn)練,就可依據(jù)文字、線索獨(dú)立完成各種任務(wù),根據(jù)文本框提供的內(nèi)容輸出答案。例如,文本框輸入“這個句子‘一個人牽著他的狗走在公園里’”,將這句話翻譯成法語:”,GPT-3就可以寫出“un homme qui promène son chien dans le parc.”這個能力被稱為零樣本學(xué)習(xí),DALL·E可將這種能力拓展到視覺領(lǐng)域。如果文本輸入正確,還可以實(shí)現(xiàn)一些圖像對圖像“翻譯”的工作。

但研究小組并不希望DALL·E的這項(xiàng)能力與神經(jīng)網(wǎng)絡(luò)融合或者對神經(jīng)網(wǎng)絡(luò)沒有任何質(zhì)的提升或者微調(diào),相反,他們通過瑞文標(biāo)準(zhǔn)圖形推理測驗(yàn)(20世紀(jì)一個常見的IQ測試題)檢測到DALL·E對類比推理問題具有解決能力。

DALL·E可掌握地理知識、地標(biāo)、領(lǐng)界區(qū)域,而且這些知識驚人的準(zhǔn)確,但也存在紕漏

除了拓展DALL·E知識領(lǐng)域廣度,也拓展它的知識寬度

基于Transformer解碼部分的DALL·E可以接收來自文本和圖片的1280個tokens,其中256個用于文字,1024個用于圖像——屬于自回歸模型。在其64個自注意力層中的每個注意力掩碼允許每個圖像的token加入到所有的文本token中。DALL-E對文本token使用標(biāo)準(zhǔn)的因果掩碼,根據(jù)層對行、列或卷積注意力模式的圖像標(biāo)記使用稀疏注意力機(jī)制。

自從Reed誕生,文本合成圖像一直是研究領(lǐng)域?qū)W⒌牟糠?,它的方法是使用文本低維嵌入表征的GAN模型,這種低維嵌入表征向量是由對比損失函數(shù)訓(xùn)練的編碼器生成,像CLIP一樣,StackGAN 和 StackGAN++使用多種尺度的GAN模型來提升圖像分辨率和保真度。

AttnGAN將與文字與圖片特征有關(guān)的注意力整合起來,呈現(xiàn)文本與圖像的對比特征,彌補(bǔ)丟失的輔助目標(biāo)。其它模型將培訓(xùn)期間有關(guān)督查的附屬資源整合起來以提高畫質(zhì),最后,基于采樣策略,Nguyen和Cho利用預(yù)訓(xùn)練多模態(tài)判別模型生成圖像。

這與VQVAE-2使用的舍選抽樣相似,在交互視覺中,從512個樣本抽出前32個,根據(jù)文字重新排列。這個過程可以看作語言導(dǎo)向檢索,對樣本質(zhì)量有非常大的影響。

責(zé)任編輯:姚治

分享: