剑客
关注科技互联网

艺术滤镜视频来了!腾讯人工智能首创深度网络学习视频

18周年庆当天,腾讯人工智能实验室(AI Lab)首次发布深度网络学习视频案例——《青春无畏,冲动不止》庆生视频的艺术滤镜版本。

今年风靡业界的Prisma以及天天P图的“潮爆艺术画”,能够将用户拍摄的照片变换成指定的风格。它不仅仅是一个简单的图像滤镜操作,它赋予深度神经网络学习任意艺术风格的能力,并且能够应用到任意的输入图像中,是以深度学习为代表的AI技术在艺术上的创新。

视频是未来互联网上最多的流量载体。“未来 70%、80% 的流量可能都出自视频”。 在图像风格变换引起爆发性关注之后,一系列的公司,譬如Aristo, Prisma, Philm等都开始聚焦短视频的风格变换,包括对 AI一向深切关注的 Facebook 也将推出视频风格变换技术(智能手机移动端)。

艺术滤镜视频来了!腾讯人工智能首创深度网络学习视频

将风格变换技术由图像向视频拓展最为直接的方式就是使用图像风格变换的技术逐帧完成视频的变换,但是这样很难保证视频帧间风格的一致性。为此Ruder 等人提出了一种迭代式的做法[1],通过帧间的运动信息来约束视频的风格变换。但是这种方法在执行图像生成的时候复杂度很高,耗时很长。

因此,如何构建有效的深度学习模型来学习视频的空间域以及时间域的特性以完成视频风格变换是学术界以及工业界一个重要的研究课题。这个深度学习模型需要:1,在空间域上可以将名画元素有效的提取出来并学习应用;2,在时间域上保持变换风格的时间一致性(temporal consistency);3,保证计算的高效性以支持更多的实际应用场景。这也是包括Facebook和Stanford University等业界领先的研究团队比较关注的研究课题。

但是迄今,业界的研究团队仍然没有很好的深度学习模型和高效率(如实时)的解决方案。Stanford University的Justin Johnson (使用前向网络完成图像风格变换的作者[2]) 也谈到“将前向网络与基于光流的时间一致性结合是一个开放性的课题”,他本人认为这种结合是可能的,但是不清楚业界是否有人已经实现,,而且也不太确定这种结合的正确方式。

艺术滤镜视频来了!腾讯人工智能首创深度网络学习视频

针对视频风格变换的技术难点,腾讯AI Lab在业界率先构建了深度神经网络将风格变换的前向网络与视频时空一致性结合起来,高效的完成高质量的视频风格变换。腾讯AI Lab设计了独特的深度神经网络,在训练的过程中,使用了大规模、多场景、多特点的视频数据(数千小时)以及相应的风格图像,一方面学习空间域的风格变换特点(在保持原有视频内容的基础上引入给定图像的风格),另一个方面捕捉视频帧之间极其复杂多变的时域特性(产生的风格视频相邻帧之间的时空内容与风格一致)。

更重要的是,腾讯 AI Lab还提出了一种针对视频数据的独特训练过程,使得我们的深度神经网络能够更好地捕捉视频时间域上的一致性信息。在风格视频生成阶段,不用做任何预处理和后处理,将输入视频在风格变换网络上进行一次前向传播,实时输出风格化的视频。同时,为了满足线上需要,腾讯AI Lab也挖掘了模型的深度、宽度对输出质量的影响,并基于此对模型进行压缩且输出质量没有肉眼可见损失。经过优化后的深度模型,已经能够在手机客户端做到针对摄像头数据的实时处理,将用户拍摄的视频画面实时进行风格变换。

作为腾讯AI Lab在将AI技术与腾讯用户需求相结合的尝试,视频风格变换使用的深度模型率先解决了前向网络与视频时空一致性结合的难题。这使我们有理由相信更多的AI技术也能够应用到各类场景下的数据上面(图像/视频,文本,语音等)。

作为腾讯新成立的研究部门,腾讯AI Lab立足于腾讯的大数据和平台,致力于开发新的AI技术,探索新应用和新业务,将AI技术融入产品,满足亿万互联网用户的需求。

腾讯科技开通知乎机构账号了!你敢翻牌,我就敢答, 在知乎等你

推荐:关注“AI世代”微信号(tencentAI),回复“麦肯锡”可获得《2030年出行市场会如何?》;回复“创业报告”,可获得美国《AI创业指南》;回复“斯坦福”,可获得《2030年的人工智能与生活》。回复“白宫”,可获得白宫《美国AI战略报告》。

艺术滤镜视频来了!腾讯人工智能首创深度网络学习视频

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址