作者| Just
出品 | AI科技大本营(ID: 100)
一次 TED 演讲中,前锤子科技设计总监罗子雄分享如何入门学设计的经验。
要想学好设计,他提醒观众要先看基础实例教程。由于互联网上培训机构鱼龙混杂,为了卖课,他们都喜欢利用人性的弱点,给出耸人听闻的课程文案,比如像你听过的英语培训机构《三十天教你突破雅思7分》,设计和画画教程的文案也是类似,《如何六步画好人物肖像》。
当然,还有更狠的:《如何两步画好人物肖像》。
两步?这是第一步:
第二步。结束。
这完全是“神笔马良”的效果啊。虽然是调侃,但也描绘了人们在想要学好新事物时一步登天,追求速成的荒诞心态。
可是,也不是人人都想成为每一笔都要自己亲力亲为的画家,对于设计师、插画师等专业人士来说,在保证质量的条件下,要追求项目完工的效率,要想达到这两个目标的最优解,最好的方式,显然是借助科技的力量。
现在要介绍的这款 AI 软件 ,能让你真的见识一下 “X 步画出任何你想要的写实风景画”,它叫 系统。
在 3 月 19 日的 GTC 2019 上, 推出了这款 AI 绘画系统,该软件使用生成对抗性网络,只要你给出简单的草图,再点击几下,几秒钟就可绘制逼真的风景图像,下面是实打实表演了一个《如何三步画一副写实风景图》,AI 诚不我欺。
目前有三种工具:油漆桶、钢笔和铅笔。屏幕底部是天空、树木、云等一系列选定对象,选择任一对象在左侧简单描绘,就会自动生成相应的逼真物体。
要做到这种效果,当然离不开庞大的数据来训练模型。目前, 已为 深度学习模型提供了 100 万张从 收集的数据。需要指出, 并不只是对已有的照片进行拼接,实际上最终生成的图像都是独特的合成图像。所以即便不同的用户做出相同的设置并画出相似的草图,系统中也会通过内置的参数给出生成不同的图像。
也许会有人问, 以后能不能画人物肖像?尽管目前 没有明确给出可能性,但一个合理的推测是,如果给 系统训练足够多的人物肖像数据,画一幅你想要的肖像画应该不成问题。如果你还记得最近那个很火的“这个人不存在”网站,它就利用 开源的 算法随机生成了人脸图像。
有网友在 上问了个恶作剧问题:将草图中的天地倒置, 系统会生成什么图像?
回复中点赞最高的网友说神经网络会乱成一团麻,另一位网友的回答还算靠谱,他说 Sky-Net 会排除终结器大军,它们是不会允许这种事发生的。
还有网友在 上评论称,如果将其应用在 3D 环境中,尤其 VR 世界的游戏开发会更容易。
显然,该系统可能对视频游戏设计师、架构师等专业人士很有吸引力,比如能够帮他们提高创建游戏场景的效率。不过目前 没有任何商业化发布的计划,但可能会很快发布一个能让任何人都使用的公开试验版。
也会将 应用到它刚刚发布的一个叫 AI 游乐园的网站上,现在感兴趣的网友在该网站上可以体验基于 AI 的图像修复、艺术风格转换、真实感图像合成功能。
背后的研究论文
系统的创建在一篇名为《空间自适应归一化的语义图像合成》(或称 SPADE 项目)的论文中有详细介绍,这篇论文由 UC , , MIT CSAIL 实验室的 4 名研究人员共同写就,已公开发布在 Arxiv 上。值得一提的是,该论文将在 6 月的 CVPR 2019 大会上做口头报告。
所谓空间自适应归一化是一个简单但有效的层,用于在给定输入语义布局的情况下合成照片级的逼真图像。论文摘要提到,以前的方法直接是将语义布局作为输入提供给网络,然后通过卷积、标准化和非线性层进行处理。
他们则证明这并不是最理想的,因为归一化层倾向于“洗掉”语义信息。为了解决这个问题,他们建议使用输入布局通过空间自适应的、学习的变换来调整归一化层中的激活。与现有方法相比,几个具有挑战性的数据集上的实验表明,该方法在视觉保真度和与输入布局的对齐性方面具有优势。
实际上, 是基于去年推出的能同样呈现虚拟世界的 系统,但后者在仿真风景方面存有一定瑕疵,从上图比对效果中就可以明显看到。
最后,他们的模型允许用户轻松地控制合成结果的样式和内容,以及创建多模态结果。
方法简述
在许多诸如批量标准化(Batch )这样的常见的标准化技术中,在实际标准化步骤之后应用了学习的仿射层(如在 和 中)。而在 SPADE 项目中,仿射层是从语义分割映射来学习的。这类似于条件归一化,只是学习仿射参数现在需要空间自适应,这意味着我们将对每个语义标签使用不同程度的缩放和偏向。
使用这种简单的方法,语义信号可以作用于所有层的输出,不受可能丢失此类信息的规范化进程的影响。此外,因为语义信息是通过 SPADE 中的层提供,所以随机潜在向量可以作为网络的输入,其可以用于操纵所生成图像的样式。