AI绘画的发展速度已经超乎我们的想象了。
比如以下五张图,你能看出哪一张不是用AI生成的吗?图A:图B:图C:图D:图E:(作品出处和答案见文末)可能不少人会觉得惊讶,两年前AI只能画一些难以辨认的模糊图片,如今,一个没有绘画基础的人用AI输入几个关键词,等待几十秒就可以生成比较精细的作品了,如果再多加练习,部分作品甚至能达到商用的水准。
AI绘画怎么猛然进入技术爆炸的时代了?从今年2月Disco Diffusion面世,4月MidJourney上线、DALL-E 2内测, 到5月和6月Google推出Imagen和Parti,再到7月Stable Diffusion内测、开源,各种AI绘画技术迅速更迭升级,有画师感慨几乎是“一天一个样”。
这股浪潮也从国外刮到国内,百度等互联网大厂以及一大批艺术、人工智能从业者和爱好者纷纷投入AI绘画的新领域。
代表平台有文心一格、6pen、Tiamat等等。
与此同时,有关AI绘画的争议和论战越发激烈。
近期出圈的一个事件是AI画作《太空歌剧院》在美国科罗拉多州博览会美术比赛中获得“数字艺术/数字修饰照片”类别的最高奖项,结果受到画师们的质疑和抵制。
对于内容创作者来说,当下要如何理解AI绘画?又有哪些应用场景和亟待探索的问题呢?我们和多位创作者聊了聊,并结合各平台的案例来分析。
文章分为三部分:第一部分是对AI绘画的基本原理和发展历史的简单科普,第二部分列举了一些AI绘画的具体应用案例,第三部分是探讨目前AI绘画存在的争议和问题,希望对感兴趣的朋友有所帮助,欢迎友好交流。
AI绘画是素材拼贴?首先,我们在这里讨论的AI绘画主要是通过文本生成图像的计算机程序,即“文生图”(text2image)。
比如这张图是在DALL·E 2上由文字“Teddy bears working on new AI research on the moon in the 1980s”(1980年代在月球上研究AI的泰迪熊)生成的。
稍微修改一下描述,把地点换成水下“underwater with 1990s technology”就能得到以下图片:可以看到,AI绘画并不是对现有素材进行简单的“缝合拼贴”,而是根据文字描述创建新的图像,一定程度上做到了“举一反三”,可以帮助人类画出各种奇思妙想,这背后是大量而复杂的深度学习训练。
让我们从AI绘画的技术发展史来初步认识一下文生图的基本原理。
AI绘画发展时间线,图源“逗砂”深度学习在计算机视觉领域的发展可以追溯到2012年,AI学者吴恩达和Jeff Dean等人的猫脸识别实验(通过1000台电脑创造出多达10亿个连接的“神经网络”,上万张猫脸图片的模型训练后,最终画出了一个模糊的猫脸),这意味着机器自主学会了识别猫的面孔。
此后科学家们在AI图像生成的方向上继续深入研究,提出了“GAN(生成对抗网络)”,通过生成器与判别器的互相博弈来不断提升生成能力,就像有一位老师在检查学生画得像不像,不像的话学生就重新修改,如此循环。
对抗1000次与100000次后生成的图像2015~2020年,从GAN开始,AI绘画模型进行了很多探索,但这个时候AI还做不到根据文字来生成图片。
直到2021年1月,OpenAI接连发布了两个连接文本和图像的神经网络DALL·E和CLIP。
CLIP(跨模态预训练模型)基于大规模图文数据集进行了对比学习训练,可以提取文本和视觉特征来互相匹配。
也就是说,AI能够将文字“猫”与猫的图像相关联,且关联的特征是非常丰富的。
在CLIP推出一年后,2022年2月,Somnai等几个开源社区的工程师制作了一款AI图像生成器Disco Diffusion(简称DD),它能理解输入的主体内容、艺术风格、结构视角和修饰词,且生成的图片更华丽。
DD作为免费开源项目搭载在Google Colab上,使用浏览器即可运行,AI绘画从此走入了大众视野。
Disco Diffusion默认画作,输入文字:A beautiful painting of a singular lighthouse, shining its light across a tumultuous sea of blood by greg rutkowski and thomas kinkade, Trending on artstation.", "yellow color scheme"(一座奇异灯塔的美丽画作,它的光芒照耀在汹涌的血海中,Greg rutkowski和Thomas kinkade风格,A站流行,黄色配色方案)不过DD并不是“CLIP+GAN”的组合,而是“CLIP+Diffusion”,Diffusion(扩散模型)也是当下最热门的图像生成模型。
这个半路杀出的Diffusion有什么不同?可以看到DD图片生成的过程是从模糊逐渐变得清晰。
每张图像本质是一个像素点矩阵,Diffusion先是连续给图像添加高斯噪声,图像变成了一堆随机噪声,然后通过逆向反转这个噪声过程来学习恢复数据。
Diffusion模型的的扩散过程和逆扩散过程所以当我们在DD输入一段文字描述时,程序以Diffusion随机生成的噪声为起点,CLIP会持续计算检查画面与描述的一致性,持续迭代修改,直到噪声变成正确关联的线条和色彩,从而生成满足需求的图像。
AI艺术研究者“FeiArt”认为,基于生成模型的AI绘画是一个“有码到无码”的艺术。
虽然DD实现了文生图,但因为是开源的,上手门槛比较高,光是满屏的代码可能就要劝退新手小白了。
“一开始要自己调整二三十个参数,以及编制比较合适的prompt,才能画出比较理想的画面效果,对于使用者理解算法逻辑和写关键词的要求非常高。
不过现在的版本基本不用调参数,只要写好关键词就可以了。
”数字艺术家“脑玩家mindplayer”向我们介绍了DD的使用体验,她从今年3月开始在B站和小红书分享AI绘画作品和教程,是国内最早一批玩家。
DD出圈不到一个月,很快就有更成熟、门槛更低的产品出现了——Midjourney(简称MJ),目前社区成员超260万。
MJ搭载在Discord上(国外流行的虚拟社交平台),是一个公开的社区,用户加入后在聊天框输入描述文字发送,群内的机器人会回复生成图片。
每次默认会生成4张图片,用户可以点击图片下方的按钮继续深化(u1/2/3/4),或者在此基础上生成同一风格、部分变化的图片(v1/2/3/4)。
此时AI绘画的质感和想象力已经展现出了一定的审美水平和艺术效果,上文提到的获奖作品《太空歌剧院》便是由MJ生成的,作者在此基础上进行了修改完善。
我们在谷歌趋势搜索关键词“ai painting”,可以看到近两年的热度迅速上升,尤其今年7月以来达到最高峰。
很大一部分热度要归功于Stable Diffusion(简称SD)。
“相比DD,MJ可能更突出作品的质量和独一无二的深化交互。
而SD就胜在超全面的风格和极快的速度,而且对新手来说比较友好,网页版简洁易上手,免费的用量也可以体验不少的图。
”AI绘画设计师“鱼摆摆”说道。
SD新账号可以免费使用200点数,每次生成根据画面精细程度、张数等参数消耗不同的点数,最少1次1点。
不过SD是完全开源的,用户可以选择线上或部署到本地来使用。
6pen最近在微博发起了快闪活动,用户写关键词发微博即可体验用SD生成图片SD出现后,AI绘画的浪潮越发汹涌,多位创作者表示可能前两天还在讨论的功能,第二天就被开发出来了。
除了文生图,如今以图生图(image to image)、图像修复(inpainting)、图像拓展(outpainting)等功能都已实现,AI绘画也能驾驭国风、二次元等多元风格了。
DALL·E outpaintingWaifu Diffusion(二次元老婆生成器)文心一格 中国风画作Tiamat 国风管线AI绘画在内容领域如何应用?在现阶段,对于艺术、影视、广告、建筑、时尚、新媒体等创意行业从业者来说,AI绘画正成为一个强大的助手,可以辅助日常工作,提高产出效率,降低时间和经济成本。
比如“脑玩家mindplayer”使用AI辅助设计LOGO。
原来的流程是先构思、手绘,再输入电脑调整,中间可能还要跟其他同事配合,来回沟通会耗费不少时间精力,但有了AI的帮助就非常高效了,“我告诉AI我要做什么,我们磨合一个小时活儿就干完了”。
在AI基础上进行优化,作品拿去商用也不是难事。
影视导演海辛在公众号“全民熊猫计划”分享了其公司将AI设计融入影视美术设计中的首次尝试——“这街5·李承铉队长大秀”,工作流大致为Midjourney -> Blender -> UE虚拟制片。
李承铉工作室 ,赞 140他表示在极短的制片筹备时间内,AI创作大幅度地提高了效率,证明了AI投入到工业化使用是完全可行的。
除了辅助设计,AI也能激发创意灵感。
像服装博主“JINNY ”、婚礼策划师“哎呀呀哎吔吔”使用AI生成的概念图作为设计参考。
PPT设计师、艺术博主“Simon_阿文”经常分享AI行业资讯和实用工具,他尝试用AI生成无缝纹理贴图,设计素材的获取变得更自由了。
数字艺术家、小红书博主“对方正在画图”告诉我们,具体应用要看创作者的知识背景和prompt的写作能力,不同行业背景的人写出的词、画出的内容很不一样。
这些从业者发布在网上的作品让更多人看到了AI绘画的可能性,非专业人士也跃跃欲试,希望大展身手。
有观点认为专业人士在AI绘画上会更有优势,用起来更得心应手,实际上这个优势随着技术迭代已经在缩小了。
“之前一个人从不会画画到能画出漂亮的、可读解的图像,可能需要很多年的训练。
但是现在,有一个比较熟悉AI绘画系统的人教你的话,可能两三天就能学会大概的描述方法,再学习精进的时间成本降低很多了。
”“脑玩家mindplayer”说道。
“人人都可以是艺术家”,我们列举了几个AI绘画在内容领域的应用方向。
1. 有经验的创作者可以用AI拓展新的内容题材,创新互动形式。
“大谷Spitzer”擅长修复旧照片和视频,现在他能结合AI绘画与手绘来“还原”莫奈1875年绘制的印象派油画《撑阳伞的女人》的写实风格场景。
他通过选取多个局部区域用AI进行绘画生成,再辅助以手绘进行修饰细节和完善衔接处,最终完成了这幅作品。
百万粉航空媒体自由撰稿人、航空画画家白玮,近期发布了自己用AI制作的漫画,是赛博式的志怪题材。
随着技术发展,创作者平台方面也将给予更多AI工具支持,新的内容玩法值得期待。
比如今年9月百度万象大会上推出了“创作者AI助理团”,通过文心大模型、文心一格、图文转视频等技术,为创作者提供“AI文案助理”、“AI插画助理”、“AI视频制作助理”,帮助创作者实现“一个人成为一支队伍”。
2. 将AI图片实体化等进一步变现增收。
“鱼摆摆”基于AI生成的作品做了很多领域的扩展和尝试,比如实体化成为卡牌游戏的卡片角色、拼图、实体墙绘彩绘素材、文创产品等等,也有做AI绘画教学课程。
“鱼摆摆”供图此外,还有创作者将AI生成图片进一步优化做成数字藏品,上链发售。
3. 图文作者拥抱“配图自由”,可以尝试自己生成符合内容的封面图和插图了。
公众号“槽边往事”从5月18日以来的封面图基本是作者和菜头自己用AI生成的,结尾附上了部分图片的描述词,他还在文章中分享了创作心得。
本文的封面图也是我们初次使用Stable Diffusion生成的,“一个女生在书房里坐在桌前,桌上有一台笔记本电脑,窗外是秋天,有金黄的银杏树”,未经过二次修改。
4. 二创门槛降低,UGC内容数量增多。
现在入门AI绘画越来越便捷了,新手不会写关键词,可以去爱好者创建的检索网站和群内“抄作业”,SD也可以接入Photoshop插件,创作门槛更低了。
描述词检索网站lexica.art借助AI生成图片的能力,不会绘画的用户有机会实现自己的奇思妙想,出于爱好做一些小说插图、音乐MV、鬼畜玩梗等二创,从而跨入内容创作的大门。
UP主“哀荣四泻”用AI为歌曲作画5. 延伸探索AI生成视频。
AI绘画的下一步就是视频。
近期AI作品《乌鸦》获得了2022年戛纳电影短片节最佳短片,据作者Glenn Marshall介绍,这部作品将真人舞蹈视频素材《Painted》输入OpenAI的CLIP,然后系统根据描述“荒凉风景中的乌鸦画”转化为动画。
UP主“自由云朵”利用Disco Diffusion绘制,经由Topaz Video Enhance AI优化放大,复刻了周杰伦新歌《最伟大的作品》的MV,播放量达83万,这是他B站投稿中目前播放最高的作品。
据百度文心方面介绍,AI生成视频,是AI生成图像的一种延伸。
从技术本质上看,视频可以认为是多张“图片”,即视频帧构成的序列,且序列上各帧之间有画面、逻辑等层面的关联。
因此,从严格的技术抽象层面出发,AI生成视频是相对更难实现的。
当前文生图技术可以通过简单的技术组合,例如分步骤扩散生成等方式,将生成图像扩展到生成视频,但效果还不能令人满意。
总结来说,AI按照生成图像的方式生成视频,仍处于前沿探索阶段。
AI绘画仍待探索的问题AI绘画的飞速发展也伴随着许多争议和问题。
“脑玩家mindplayer”表示,“AI绘画作为一个工具可以迅速被应用,人人都可以画出自己理想的世界,但是之后怎么办?这可能是行业内外的人都在思考的问题。
”艺术相关从业者担心的是自己会不会被AI取代,因此失业。
今年8月,《大西洋月刊》文章中使用Midjourney创作的图片作为插图引发了大量争议,如果媒体在未来大量使用AI绘图,那么插画师、摄影师的生存空间会不会被挤压,甚至行业都将覆灭呢?的确,人工智能的力量会对人们的生活带来很大变化,未来技术普及后不可避免会取代一部分重复性较高的初级岗位,但“艺术已死”的说法真的与现实相符吗?AI绘画具有创造性吗?Midjourney创始人David Holz曾在每周三Office Hour时间,回答了这个提问:创造力本身有很多的形式,如果说是将两个不同的概念混合在一起,像是赛博朋克和洋葱,也许历史上从未有过做赛博朋克洋葱的人类。
在将两个不同概念混合在一起的能力上,AI目前基本是人类的水平。
但我认为艺术家不仅仅是关于图像的产生者,艺术往往是关于故事和情感的,而AI没有故事和情感,AI创作的影像的叙事