欢迎访问本站!

首页科技正文

2022世界杯预选赛中国赛程(www.9cx.net):外星人的梦乡?CLIP模子让GAN用一句话天生奇幻艺术作品

admin2021-07-1219

FiLecoin官网

www.ipfs8.vip)是FiLecoin致力服务于使用FiLecoin存储和检索数据的官方权威平台。IPFS官网实时更新FiLecoin(FIL)行情、当前FiLecoin(FIL)矿池、FiLecoin(FIL)收益数据、各类FiLecoin(FIL)矿机出售信息。并开放FiLecoin(FIL)交易所、IPFS云矿机、IPFS矿机出售、租用、招商等业务。

,

新智元报道

泉源:berkeley

编辑:好困

【新智元导读】或许,工科和艺术之间并不存在一个显著的界线。就像用AI天生的这些图“tu”像,可以说就是一幅幅艺术作品。而这些模子和代码的背后,又似乎只是一些被以为是与艺术毫无关系的程序员。

最近几个月,AI天生艺术领域的‘de’生长犹如雨后春笋一样平常。

自从OpenAI开源了CLIP模子的权重和代码之后,网友们就最先行使『shi』它去缔造种种有趣的视觉艺术。

而CLIP模子缔造力是云云之强,仅凭证这些短短的文字,就能以不能思议的抽象气概将它们出现出来。

而你,并不会知道泛起的会是什么:可能是迷幻的伪现实场景,或者是加倍抽象的『de』器械。

例如,输入 「夜晚的都会景观」,就会天生这种很酷、很抽象的画面。

亦或是天生「吉卜力画风的场景」。

CLIP也可以用来天生短的动画,例如这个「星空」。

自然语言输入是一个完全开放的沙盒,若是能根据模「mo」子的喜欢使用文字,你险些可以缔造任〖ren〗何器械。

在看法上,这种从文本形貌天生图像的想法与OpenAI的‘de’DALL-E模子惊人地相似。但现实上却完全差异。

DALL-E是直接从语言中发生高质量的图像而举行的端到端训练,而CLIP则是使用语言来指导现有的无条件图像天生模子。

DALL-E文本到图像的端到端天生

CLIP是若何天生艺术作品的

不外,这些基于CLIP的《de》方式要相对拙略一些,以是输出的效果并不像DALL-E那样具有很高质量和准确度。相反,这些天生的图像是怪异、迷幻和抽象的。

正是这种怪异使这些基于CLIP的作品云云怪异,让人在熟悉的事物上看到完全差其余效果。

「牛油果形状的扶手椅」:上图由DALL-E天生,下图由CLIP天生的

CLIP:一个意想不到的故事

2021年1月5日,OpenAI开源了CLIP:一个用来给图像举行标注的模子。

在数以亿计的图像中学习之后,CLIP不仅在给图像挑选最佳的‘de’标注方面变得相当熟练,而且在分类方面还展示出了比以往任何模子都更壮大的鲁棒性。

除此以外『wai』,CLIP还学会了抽象的视觉表征,在某种水平上这照样第一次。

但“dan”很显然,没有任何迹象解释CLIP还能{neng}在天生艺术方面带来任何辅助。

然而,网友们只花了一天时间就发现,通过一个简朴的技巧,CLIP就可以用来指导现有的图像天生模子(如『ru』GANs、Autoencoders或像SIREN这样的隐式神经表征),输出基于给定文字形貌的图像。

其中,CLIP在天生模子的潜在空间举行搜索,从而【er】找到与给定的文字形貌相匹配的潜在图像。

然而,这种方式在早期天生(sheng)的图像可以说十分诡异。

Big Sleep:一切的最先

不外,在短短的几周之后就有了突破性「xing」希望,advadnoun宣布并开源了〖liao〗Big Sleep的代码:一种基于CLIP并使用Big GAN作为天生模子的文本到图《tu》像手艺。

有趣的是,模子的名字起源于一部超现实主义的玄“xuan”色影戏The Big Sleep。

The Big Sleep以其怪异的方式,险些可以出现任何能【neng】用文字表达的器械。

2022世界杯预选赛中国赛程www.9cx.net)实时更新比分2022世界杯预选赛中国赛程数据,2022世界杯预选赛中国赛程全程高清免‘mian’费不卡【ka】顿,100%原生直播,2022世界杯预选赛中国赛程【cheng】这里都有。给你一个完美的观赛体验‘yan’。

日落――The Big Sleep

起风了――The Big Sleep

在一切的终点,摇摇欲坠“zhui”的修建和刺破天空的武器――The Big Sleep

看到这些作品,也就不难想象为何网 wang[友给出一个富有「哲学」的看法了:

你可以把CLIP的输出看作是单纯的统计平均数的产〖chan〗物:盘算语言和视觉之间的相关性的效果,由于它们存在于互联网上。因此,从这个角度来看,CLIP的《de》输出更像是在窥视时‘shi’代潮水,并把事情看成是类似于 「互联网的统计平均值」。

VQ-GAN:一个新的超级天生《sheng》模子

2020年12月17日,海德堡“bao”大学的研究职员揭晓了他们的论文「Taming Transformers for High-Resolution Image Synthesis」,提出了一种新的GAN架构:VQ-GAN。

VQ-GAN将conv-nets和transformers连系在一起,并充实地行使「shi」了conv-nets在局部感应误差和transformers在全局注重力上的优势。

在四月初,advadnoun和RiversHaveWings最先把VQ-GAN和CLIP连系到一起,实验从文本提醒中天生图像。

新的方式与The Big Sleep基真相同,只不外原本的天生模子Big-GAN,酿成了VQ-GAN。

效果就是,天生的图像在气概上发生了伟大的转变。

一系列的管道――VQ-GAN+CLIP

在月光下舞蹈――VQ-GAN+CLIP

以武器作为枝条的树――VQ-GAN+CLIP

VQ-GAN+CLIP的输出看起来不像是The Big Sleep那样的绘画,而更像一个雕塑。

这个效果有些出乎意料,只是把天生模子从Big-Gan换成VQ-Gan,就能获得一个全新气概的「艺术家」。

固然,这也从侧面说明晰CLIP的通用性:可以插入任何一个天生模子,并在之后发生具有全新气概和形式的艺术。

虚幻引擎(Unreal Engine )技巧

除了可以切换天生模子来改变输出的气概以外,另有一个更简朴的技巧「qiao」可以做到这一点。

只需要添加一些特定的要害词到文字提醒中,CLIP就 jiu[能对输出的图像做出响应地修改――以它所「明白」的方式。

这其中最有吸引力的一个技『ji』巧就是:「虚幻引擎技巧」。其中,虚幻引擎{qing}是一个由Epic Games开发的3D创作渲染工具。

网友jbustter发现,若是在文字提醒中加入 「在虚幻引{yin}擎(qing)中渲染」,输出效果看起来会更真实。

CLIP似乎学习了许多被符号为「用虚幻引擎渲染」的电脑游戏图片,因此,通过在文字提醒中加入这一点,就能有用地激励了模子去「复现」那些由虚幻引擎渲染的图像。

一个神奇的童话屋,虚幻引擎――VQ-GAN+CLIP

在某种水平上,虚幻引擎的技巧是一种突破。它使人们熟悉到在提醒中添加要害词可以有多大的效果。

于是,有越来越多庞大的提醒被使用,用来尽可能地提取最高质量的输出。

「山顶周围狂风【feng】雪中的小木屋,黄昏时分打开一盏灯 | artstation | 虚幻引擎」――VQ-GAN+CLIP

「山顶上的屋子在午夜时分的哑光画,小萤火虫在周围飞来飞去,是吉卜力事情室的气概 | artstation | 虚幻引擎」――VQ-GAN+CLIP

这些看起来与之前VQ-GAN+CLIP天生的图像完全差异。它们看起来更像是经由编辑的照片或视频游戏的场景。

凭证这些要害词,模子将会输出气概各异的艺术作品,同时,随着天生模子的生长,也将会有更多更精彩的作品发生。

而这仅仅是个最先。

参考资料:

网友评论