主要收獲

方面詳細信息
7}深度無監(jiān)督學習的新方法
7}

在復雜數(shù)據(jù)集上生成對抗性視頻

雙視頻判別器 GAN(DVD-GAN)可擴展到更長、更高分辨率的視頻,產(chǎn)生高復雜度和保真度的樣本。它為視頻合成和預測設定了新的基準。

生成動態(tài)場景的長視頻

一種視頻生成模型,能準確再現(xiàn)物體運動和攝像機視角隨時間的變化,解決了在生成新內(nèi)容的同時保持逼真動態(tài)效果的難題。

VideoGPT:使用 VQ-VAE 和變壓器生成視頻

VideoGPT 采用 VQ-VAE 和變換器對自然視頻進行建模,生成高保真樣本,展示了視頻生成簡單架構(gòu)的有效性。

NüWA:創(chuàng)建神經(jīng)視覺世界的視覺合成預訓練

NüWA 是一個用于生成或處理視覺數(shù)據(jù)的多模態(tài)預訓練模型。它采用三維變壓器編碼器-解碼器框架,在各種視覺合成任務中取得了最先進的結(jié)果。

Imagen Video:利用擴散模型生成高清視頻

Imagen Video 使用文字提示,通過級聯(lián)擴散模型生成高清視頻,展示了如何通過文字提示生成高清視頻。

能夠制作出具有高度可控性的多樣化藝術(shù)視頻。

對齊你的潛像利用潛在擴散模型合成高分辨率視頻

通過在圖像上進行預訓練和在視頻上進行微調(diào),將潛在擴散模型(LDM)應用于高分辨率視頻生成,實現(xiàn)了最先進的性能,并展示了個性化文本到視頻生成的潛力。

利用擴散模型生成逼真視頻

W.A.L.T 是一種基于變壓器的方法,利用擴散建模生成逼真的視頻,在視頻和圖像生成基準測試中取得了很高的性能。

關(guān)注就是一切

在機器翻譯等序列轉(zhuǎn)換任務中,完全基于注意力機制的 Transformer 模型優(yōu)于遞歸網(wǎng)絡和卷積網(wǎng)絡,表現(xiàn)出卓越的質(zhì)量和效率。

語言模型是快速學習者

GPT-3是一個大型自回歸語言模型,它在NLP任務中表現(xiàn)出強大的性能,展示了擴大語言模型以提高任務性能的潛力。

一幅圖像勝過 16×16 個字:規(guī)模圖像識別的變形金剛

視覺變換器(ViT)將純變換器直接應用于圖像補丁,在圖像分類任務中取得了優(yōu)異的成績,并證明在視覺任務中無需依賴 CNN。

ViViT:視頻視覺轉(zhuǎn)換器

ViViT 是一種基于變換器的視頻分類模型,它從視頻中提取時空標記并用變換器層對其進行編碼,在多個視頻分類基準測試中取得了最先進的結(jié)果。

遮蔽式自動編碼器是可擴展的視覺學習器

本文介紹了可擴展的計算機視覺自監(jiān)督學習器–掩碼自動編碼器(MAE),它在大型模型上表現(xiàn)出了高效的訓練能力和較高的準確性。

Patch N’ Pack:NaViT:適用于任何長寬比和分辨率的視覺變形器

NaViT 可處理任意分辨率和長寬比的輸入,提高了訓練效率,并增強了魯棒性和公平性基準的結(jié)果。

利用潛在擴散模型合成高分辨率圖像

潛在擴散模型(LDM)通過在強大的預訓練自動編碼器的潛在空間中運行,實現(xiàn)了高保真圖像合成和靈活性,為圖像繪制和其他任務設定了新標準。

image

自動編碼變異貝葉斯

論文介紹了一種隨機變分推理和學習算法,該算法對大型數(shù)據(jù)集和連續(xù)潛變量非常有效,可使用標準隨機梯度方法進行直接優(yōu)化。

利用非平衡熱力學進行深度無監(jiān)督學習

受非平衡態(tài)統(tǒng)計物理學的啟發(fā),我們開發(fā)了一種新穎的深度無監(jiān)督學習方法,允許在深度生成模型中快速學習和采樣。

去噪擴散概率模型

針對高質(zhì)量圖像合成引入了擴散概率模型,并與去噪分數(shù)匹配和朗格文動力學建立了新的聯(lián)系,從而在圖像合成基準測試中取得了一流的性能。

改進的去噪擴散概率模型

對去噪擴散概率模型(DDPMs)進行修改后,可獲得具有競爭力的對數(shù)似然和高質(zhì)量的樣本,同時還能進行高效采樣,便于部署。

擴散模型在圖像合成中擊敗廣義泛函模型

與生成式對抗網(wǎng)絡(GANs)相比,擴散模型可實現(xiàn)更高的圖像樣本質(zhì)量,并提高了條件圖像合成的保真度和多樣性。

闡明基于擴散的生成模型的設計空間

該論文為基于擴散的生成模型提供了一個清晰的設計空間,通過更快的采樣和更高的預訓練分數(shù)網(wǎng)絡效率,實現(xiàn)了最先進的新性能。

帶變壓器的可擴展擴散模型

我們對擴散變換器(DiTs)進行了探索,結(jié)果表明其具有良好的可擴展性,在圖像基準上優(yōu)于先前的擴散模型,其中最大的模型達到了最先進的保真度。

零鏡頭文本到圖像生成

本文介紹了一種基于轉(zhuǎn)換器的文本到圖像生成的簡單方法,該方法以零鏡頭方式與特定領域模型競爭。

內(nèi)容豐富的文本到圖像生成的比例自回歸模型

Parti 模型可擴展自回歸文本到圖像的生成,生成高保真逼真的圖像,并支持復雜的合成和世界知識。

利用 CLIP Latents 分層文本條件生成圖像

一個兩階段模型利用 CLIP 圖像嵌入技術(shù)從文字說明中生成圖像,從而提高了多樣性,并能以零鏡頭方式進行語言引導的圖像處理。

SDEdit:利用隨機微分方程引導圖像合成和編輯

SDEdit 引入了一種用于圖像合成和編輯的擴散模型生成先驗,在逼真度和忠實于用戶輸入之間取得了平衡,而無需進行特定任務的訓練。


常見問題

7}
答:MoCoGAN 可將視頻分解為內(nèi)容和動作兩個部分,從而生成具有不同動態(tài)效果的視頻,同時保持相同的內(nèi)容。

問:Imagen Video 如何生成高清視頻?
答:Imagen Video 使用文本提示和級聯(lián)擴散模型生成具有高保真和藝術(shù)風格的視頻。

問:擴散模型為圖像和視頻合成帶來了哪些進步?
答:擴散模型通過更好的架構(gòu)和分類器引導實現(xiàn)了高質(zhì)量的合成,在各種基準測試中取得了最先進的性能。

問:變壓器能否有效地用于視頻分類?
答:是的,像 ViViT 這樣的模型表明,基于純變換器的模型可以在視頻分類中取得最先進的結(jié)果。

問:使用潛在擴散模型進行圖像合成的優(yōu)勢是什么?
答:潛在擴散模型是在壓縮的潛在空間中運行的,因此可以在降低計算要求的情況下進行高分辨率合成。

問:在圖像合成和編輯過程中,SDEdit 如何平衡真實感和用戶輸入?
答:SDEdit 使用擴散模型先驗生成技術(shù)對圖像進行迭代去噪,在逼真度和忠實于用戶指南之間取得了平衡,而無需進行特定任務的訓練。

    <strong id="jcpqu"><del id="jcpqu"></del></strong>
    <strong id="jcpqu"><dd id="jcpqu"><tt id="jcpqu"></tt></dd></strong>
        <strong id="jcpqu"><del id="jcpqu"></del></strong>
        <u id="jcpqu"></u>