>

金沙澳门官网4166-4166am金沙登录-www.4166.com

热门关键词: 金沙澳门官网4166,4166am金沙登录,www.4166.com

GAN要取代深度学习了?请不要慌!

- 编辑:金沙澳门官网4166 -

GAN要取代深度学习了?请不要慌!

原标题:微软剑桥研究院153页最新GAN教程(附代码)

原标题:八月·机器学习热门开源项目(Aug.2018)

计算机视觉顶会盛会CVPR 2018召开在即,从官方现在接收的论文类型来看,这届会议展现出了一个奇怪的现象:生成对抗网络GAN,正在成为新的“深度学习”。MMP,深度学习还没学会,难道我又要被时代抛弃了吗?

【导读】Sebastian Nowozin在机器学习夏季课程(MLSS 2018年9月)做了关于GAN的教学,153页PPT详尽的解释了GAN的发展脉络和最新进展,此外他所提供原版大小为286MB 的pptx中包含大量动画效果,对课程的理解很有帮助。

转自 Xiaowen专知

根据Google Research的研究科学家Jordi Pont-Tuset做的一个统计,它通过查看这些论文的类型,看到了未来深度学习的发展趋势。结果,他发现生成对抗网络强势出击,大有取代“深度学习”(Deep Learning)之势。

本文将深度解析本届CVPR热门研究。第一部分是五大前沿领域的重点文章解析,包括低中层视觉、图像描述生成、3D视觉、计算机视觉与机器学习、弱监督下的图像识别等。第二部分是CVPR及腾讯计算机视觉团队简介等。

Sebastian Nowozin是微软剑桥研究院首席研究院,专注于无监督于表示学习。他在GAN领域做了大量的工作,同时也是著名的f-GAN的作者。

【导读】整理了一份8月热门机器学习开源项目,包含了Auto Keras,Glow,Videoto Video,机器翻译,舞蹈生成器,足球视频到3D,垃圾邮件过滤,语音识别,图像生成,人脸处理等主题。请查收~

不要不信,我们可是有图有真相!下面这张图展示了CVPR 2018的论文题目中,关键词GAN、Deep,以及LSTM的对比:

腾讯AI Lab去年四月成立,今年是首次参展CVPR,共计六篇文章被录取(详情见文末),由计算机视觉总监刘威博士带队到现场交流学习。

在训练 GAN 方面似乎有两三个阵营:第一个当然就是GAN的发明Ian Goodfellow以及他所供职的OpenAI和谷歌的一帮研究人员;**第二个强大的阵营也就是以这篇教程作者Sebastian Nowozin 为代表的微软阵营**;第三就是其他了

作者 | Mybrigde

图片 1

图片 2

此次教程主要有以下几个部分:

编译 | Xiaowen

可以看出,普通的“深度学习”已经在走下坡路,而且趋势明显。Jordi Pont-Tuset认为,这很可能是有些研究人员绝对深度学习已经没什么研究的了,都去尝试一些新的领域。

图片 3

概率模型

在过去的一个月里,我们对近250个机器学习开放源码项目进行了排名,选出了前10名。

在普通的“深度学习”走下坡路的同时,GAN慢慢的成为新宠,统计显示有8%的论文标题中含有GAN(这一数据相比2017年增长了2倍多)。

腾讯AI Lab展台及CV科学家在Poster环节介绍论文

GANs的几个示范应用

在此期间,我们将项目与新版本或主要版本进行了比较。Mybridge AI根据各种因素对项目进行排名,以衡量专业质量。

需要指出,这里统计的仅仅是三大计算机视觉会议接收论文的标题里的关键词。Jordi Pont-Tuset推测:普通的“深度学习”可能已经为人熟知,如今在研究领域开始往更细的、更具体的方向发展,比如GAN。

从研究领域和前沿思考出发,我们重点关注了五大领域的前沿研究,以下为重点论文评述。

评价原则

  • 这个版本中GitHub star的平均数量:919个stars
  • “Watch”机器学习GitHub上的前10位开放源码,每月收到一次电子邮件。
  • 主题:Auto Keras,Glow,Videoto Video,机器翻译,舞蹈生成器,足球视频到3D,垃圾邮件过滤,语音识别,图像生成,人脸处理。

GAN是新的“深度学习”?

一、低中层视觉问题

GAN 模型

开源项目可能对程序员有用。希望你能找到一个有趣的项目来激励你。

生成对抗网络(Generative Adversarial Nets)是Ian Goodfellow 等人2014年的论文《Generative Adversarial Nets》中提出,它是非监督学习的一种方法,通过让两个神经网络相互博弈的方式进行学习。

Low-Level and Mid-Level Vision

  • 差异性与f-GAN 家族
  • 基于积分概率度量(IPM)的GAN: MMD
  • 基于积分概率度量(IPM)的GAN: Wasserstein GANs

图片 4

图片 5来源:Slinuxer

在计算机视觉领域里,低中层视觉问题更关注原始视觉信号,与语义信息的联系相对松散,同时也是许多高层视觉问题的预处理步骤。本届CVPR有关低中层视觉问题的论文有很多,涵盖去模糊、超分辨率、物体分割、色彩恒定性(Color constancy)等多个方面,方法仍以深度学习为主。

问题与如何修正:模式崩溃(modecollapse)与不稳定性(Instability)

Autokeras: An opensource software library for automated machine learning (AutoML) [2715 stars onGithub]. Courtesy of Haifeng Jin

生成对抗网络是由一个生成网络(Generator)与一个判别网络(Discriminator)组成。生成网络从潜在空间(latent space)中随机采样作为输入,其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则是生成网络的输出,其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

其中在超分辨率有关的工作中,较为值得关注来自Twitter的Ledig等人所著文章[1]。这是第一篇将生成对抗网络(Generative Adversarial Network,简称GAN)思想用于图像超分辨率的研究(具体结构见下图)。以前的超分辨率方法,大都使用平均平方误差(Mean Square Error,简称MSE)导出的损失函数(loss)模糊,这是MSE本身设计问题导致的。

隐式模型

链接:

还不能完全理解GAN?害怕自己会落后?

图片 6

开放性研究问题

图片 7

不要着急,云栖君给你汇总一些自家产的生成对抗网络学习资料:

[1]Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network. Ledig C, Theis L, Huszár F, et al. In Proceedings of CVPR 2017.

GAN网络是近两年深度学习领域的新秀,一时风头无两。从计算机视觉顶会盛会CVPR 2018接受的论文统计就可见一斑:根据Google Research的研究科学家Jordi Pont-Tuset做的一个统计,它通过查看这些论文的类型,看到了未来深度学习的发展趋势。结果,他发现生成对抗网络(GAN)强势出击,大有取代“深度学习”(Deep Learning)之势。

图片 8

1.GAN网络通俗解释

虽然后来阿斯利康DNA测序机构的Johnson与斯坦福大学的Alahi等人[2]在ECCV 2016时中提出使用Perceptual loss替代MSE loss,获得了细节更丰富的超分辨率结果,但仍然有进步的空间。而Ledig等人的这篇论文在Perceptual Loss基础上加入GAN loss,约束超分辨率结果需符合自然图像分布规律,使超分辨率结果获得了非常逼真的细节效果。此方法也并非全无缺点,由于GAN loss考虑的是自然图像的整体分布,与具体输入图像(即测试图像)无关,因此恢复的图像细节可能并不忠实于原图,类似「捏造」出假细节,因此不适用于一些追求细节真实性的应用。

下面这张图展示了CVPR 2018的论文题目中,关键词GAN、Deep,以及LSTM的对比:

Glow: Code for“Glow: Generative Flow with Invertible 1x1 Convolutions” [1687stars onGithub]. Courtesy of OpenAI

摘要:最通俗的GAN网络介绍!

图片 9

图片 10

链接:**1. **

2.创意对抗网络你知多少?

[2] Perceptual Losses for Real-Time Style Transfer and Super- Resolution. Johnson J, Alahi A, Fei-Fei L. In Proceedings of ECCV 2016.

在普通的“深度学习”走下坡路的同时,GAN慢慢的成为新宠,统计显示有8%的论文标题中含有GAN(这一数据相比2017年增长了2倍多)。

2.

摘要:人类最难让计算机做的事情之一就是创造性地思考。计算机非常善于从事人们精确指定的工作,并且完成的速度非常快。而创造力是一个抽象的概念,把给计算机赋予创造力已经被证明是机器学习方面一个非常困难的的挑战。

使用GAN loss生成的结果(黄色方框)能够落在自然图像分布上(红色方框集合)。MSE loss虽能获得平均意义上的最小误差(蓝色方框),但却没落在自然图像分布上(红色方框的集合),因而丢失了很多图像细节。

此外用尽字母表的各种GAN的变体 X-GAN 的论文数量也是急剧增加:

图片 11

3.神经网络中的造物者-GANs

未来,将GAN loss引入到视频超分辨率的解决方案中是一个很自然的扩展,相信很快会有研究工作出现。值得一提的是,Twitter的这批研究人员在本届CVPR还有一篇关于视频超分辨率的论文[3],虽未引入GAN Loss,但通过更好帧间对齐方法提升了视频超分辨率的可视化效果。

图片 12

图片 13

摘要:人工智能正在成为一种创造性的力量,本篇文章介绍了GANs的由来和应用,并且探寻GANs在人工智能中的重要意义。

[3] Real-Time Video Super-Resolution with Spatio-Temporal Networks and Motion Compensation. Caballero J, Ledig C, Aitken A, et al. In Proceedings of CVPR 2017.

  • 后台回复“GANMLSS” 就可以获取最新PPT下载链接~

Vid2vid: Pytorchimplementation of our method for high-resolution (e.g. 2048x1024)photorealistic video-to-video translation. [2821stars on Github]. Courtesy ofNVIDIA AI

  1. 深度卷积对抗生成网络实战

二、图像/视频描述生成

参考链接:

链接:

摘要:本文作者通过一个实战小例子介绍了什么是GANS,如何使用TensorFlow来实现GANS,对于想要了解GANS的学习者来说,这篇文章绝对入门。

Image or Video Captioning

图片 14

5.程序员的魔法——用Masking GAN让100,000人都露出灿烂笑容

粗略统计,本届CVPR有16篇视觉描述生成相关论文,其中有8篇图像描述生成相关论文,其他论文多集中在视频描述生成方向。我们重点关注了其中几个较有代表性的研究:

图片 15

摘要:本文使用Masking GAN来对静态的图像中的人物图像进行处理,使其都露出灿烂笑容,堪称魔法。每个程序员都是一个魔法师,你玩过的魔法是什么呢?欢迎留言秀出各自的魔法。

1)SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

附PPT全文:

UnsupervisedMT:Phrase-Based & Neural Unsupervised Machine Translation—Facebook Research [515stars on Github]. Courtesy of FacebookResearch

没有学尽兴?没有关系,云栖君还给你准备了很多大礼,收藏一下,慢慢学习!

这篇论文由腾讯AI Lab和浙江大学等机构合作完成,主要讨论了视觉注意力模型在空间与通道上的作用。该模型能动态提取随时间变化的上下文注意力信息。传统的注意力模型通常是针对空间设计的,例如在产生图像的描述的过程中,模型的注意力模型会注意图像的不同区域。但会忽略CNN中的通道和多层中的信息。这篇论文提出了一个全新模型SCA-CNN,可针对CNN中的空间和通道信息设计新的注意力模型。在图像描述生成任务中,该模型表现出了良好性能。

图片 16

链接:

请收下这份关于人工智能的根目录——博客整理系列

图片 17

图片 18

图片 19

关于数据科学的那些事——博客整理系列

2)Self-Critical Sequence Training for Image Captioning

图片 20

图片 21

机器学习必备手册——博客整理系列

IBM Watson研究院发表的这篇论文直接优化了CIDEr评价标准(Consensus-based image description evaluation)。由于此目标函数不可微,论文中借鉴基础的强化学习算法REINFORCE 来训练网络。 该文提出了一个新的算法SCST(Self-critical Sequence Training),将贪婪搜索(Greedy Search )结果作为 REINFORCE 算法中的基线(Baseline),而不需要用另一个网络来估计基线的值。这样的基线设置会迫使采样结果能接近贪婪搜索结果。在测试阶段,可直接用贪婪搜索产生图像描述,而不需要更费时的集束搜索(又名定向搜索,Beam Search)。

图片 22

DanceNet: Dancegenerator using Autoencoder, LSTM and Mixture Density Network. (Keras) [301 stars on Github]. Courtesy of Jaison Saji

扩展眼界的都在这——博客整理系列

除了SCST,此论文也改进了传统编码器-解码器框架中的解码器单元,基于Maxout网络,作者改进了LSTM及带注意力机制的LSTM。综合这两个改进,作者提出的方法在微软的图像描述挑战赛MS COCO Captioning Challenge占据榜首长达五个月,但目前已被其他方法超越。

图片 23

链接:

深度学习必备手册——博客整理系列

3)Deep Reinforcement Learning-based Image Captioning with Embedding Reward

图片 24

图片 25

深度学习必备手册——博客整理系列

由Snapchat与谷歌合作的这篇论文也使用强化学习训练图像描述生成网络,并采用Actor-critic框架。此论文通过一个策略网络(Policy Network)和价值网络(Value Network)相互协作产生相应图像描述语句。策略网络评估当前状态产生下一个单词分布,价值网络评价在当前状态下全局可能的扩展结果。这篇论文没有用CIDEr或BLEU指标作为目标函数,而是用新的视觉语义嵌入定义的Reward,该奖励由另一个基于神经网络的模型完成,能衡量图像和已产生文本间的相似度。在MS COCO数据集上取得了不错效果。

图片 26

图片 27

最受欢迎的张玉宏博士的深度学习入门篇——不看绝对后悔!

图片 28

图片 29

Soccerontable:Upconverting YouTube soccer videos in 3D for viewing in AR/VR devices.Soccer OnYour Tabletop with OpenCV [253stars on Github]. Courtesy of KonstantinosRematas

程序员技术进阶手册

4)Knowing When to Look: Adaptive Attention via a Visual Sentinel for Image Captioning

图片 30

链接:

程序员技术进阶手册

弗吉尼亚理工大学和乔治亚理工大学合作的这篇论文主要讨论自适应的注意力机制在图像描述生成中的应用。在产生描述语句的过程中,对某些特定单词,如the或of等,不需要参考图像信息;对一些词组中的单词,用语言模型就能很好产生相应单词。因此该文提出了带有视觉哨卡(Visual Sentinel)的自适应注意力模型,在产生每一个单词的时,由注意力模型决定是注意图像数据还是视觉哨卡。

图片 31

数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

图片 32

图片 33

图片 34

本文作者:

在图像描述生成方面,本届CVPR还有很多其他方面的研究工作。包括在《Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects》中,微软亚洲研究院将复制功能(Copying Mechanism)引入图像描述生成学习新物体,《Attend to You: Personalized Image Captioning With Context Sequence Memory Networks》一文用记忆网络(Memory Network)来定制个性化的图像描述生成。

图片 35

图片 36

阅读原文

近年来,由于视频数据大大丰富,也有一系列的工作讨论视频描述生成,包括复旦大学与英特尔合作的《Weakly Supervised Dense Video Captioning》,和杜克大学与微软合作的《Semantic Compositional Networks for Visual Captioning》等。

图片 37

Artificial-adversary:Tool to generate adversarial text examples and test machine learning modelsagainst them—Airbnb [160stars on Github]. Courtesy of AirbnbEng

本文为云栖社区原创内容,未经允许不得转载。

三、3D计算机视觉

图片 38

链接:

3D Computer Vision

图片 39

近年来,3D计算机视觉快速发展,被广泛应用在无人驾驶、AR或VR等领域。在本届CVPR,该研究方向亦受到广泛关注,并体现出两大特点:一方面其在传统多视图几何如三维重建等问题上有所突破,另一方面它也和现今研究热点,如深度强化学习等领域紧密结合。我们将对以下两个方向做进一步介绍:

图片 40

图片 41

1) Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation From Single and Multiple Images

图片 42

图片 43

这篇论文为腾讯AI Lab、约翰霍普金斯大学及加州大学洛杉矶分校合作发表,作者主要讨论从二维图像中进行人造物体(如汽车、飞机等)的三维结构重建问题。事实上,绝大多数人造物体都有对称性以及曼哈顿结构,后者表示我们可以很容易在欲重建的人造物体上找到三个两两垂直的轴。如在汽车上,这三个轴可为两个前轮、两个左轮及门框边缘。作者首先讨论了基于单张图片的物体三维结构重建,并证明了仅用曼哈顿结构信息即可恢复图像的摄像机矩阵;然后结合对称性约束,可唯一地重建物体的三维结构,部分结果如下图所示。

图片 44

Stt-benchmark:Speech to text benchmark framework [300stars on Github]. Courtesy of Picovoice

图片 45

图片 46

链接:

然而,在单张图像重建中,遮挡和噪声等因素会对重建结果造成很大影响。所以论文后半部分转到了多张图像基于运动恢复结构(Structure from Motion, 简称SfM)及对称信息的物体三维重建中。事实上,SfM算法涉及到对二维特征点进行矩阵分解,而添加对称性约束后,我们并不能直接对两个对称的二维特征点矩阵直接进行矩阵分解,因为这样不能保证矩阵分解得到同样的摄像机矩阵以及对称的三维特征点坐标。在文章中,作者通过进一步利用对称性信息进行坐标轴旋转解决了这个问题。实验证明,该方法的物体三维结构重建及摄像机角度估计均超出了之前的最好结果。

图片 47

2) PoseAgent: Budget-Constrained 6D Object Pose Estimation via Reinforcement Learning

图片 48

图片 49

本文由德国德累斯顿工业大学(TU Dresden)与微软联合发表,主要通过强化学习估计物体6D姿态。传统姿态估计系统首先对物体姿态生成一个姿态假设池(a Pool of Pose Hypotheses),接着通过一个预先训练好的卷积神经网络计算假设池中所有姿态假设得分,然后选出假设池中的一个姿态假设子集,作为新假设池进行Refine。以上过程迭代,最后返回得分最高的假设姿态作为姿态估计的结果。

图片 50

图片 51

但传统方法对姿态假设池Refinement的步骤非常耗时,如何选择一个较好姿态假设子集作为姿态假设池就变得尤为重要。本文作者提出了一同基于策略梯度的强化学习算法来解决这个问题。该强化学习算法通过一个不可微的奖励函数来训练一个Agent,使其选取较好的姿态假设,而不是对姿态假设池中的所有姿态进行Refine。

图片 52

Sg2im: Code for “Image Generation fromScene Graphs”. A scene graph is a structured representation of a visual scenewhere nodes represent objects in the scene and edges represent relationshipsbetween objects [672stars on Github]. Courtesy of Google Open Source

图片 53

图片 54

链接:

强化学习的步骤如上图所示。首先给强化学习Agent输入一个较大初始姿态假设池,然后该Agent通过对其策略采样,选择一个新的强化学习池,并对其进行Refine。上述过程达到一定次数后,最后求得的姿态假设池中得分最高的姿态假设即为所求得姿态。实验表明该方法在大大提高运行速度时,还得到超出此前最佳算法的估计结果。

图片 55

图片 56

四、计算机视觉与机器学习

图片 57

图片 58

Computer Vision & Machine Learning

图片 59

GANimation:Anatomically-aware Facial Animation from a Single Image [355 stars on Github].Courtesy of Albert Pumarola

计算机视觉与机器学习历来联系紧密,随着深度学习近年来在视觉领域取得的空前成功,机器学习更是受到更广泛的重视。作为机器学习一个分支,深度学习依然是计算机视觉领域绝对主流。但与前几年不同的是,纯粹用深度学习模型「单打独斗」解决某个视觉问题似乎不再流行。

图片 60

链接:

从近两届CVPR论文看,深度学习模型与其它传统的机器学习分支模型的融合渐成趋势,既利用深度学习模型的优异性能,又利用传统模型的成熟理论基础,取长补短,进一步提高性能并增加了深度学习模型透明度。本届CVPR上这种融合趋势可分为两个具体方向:一个是传统机器学习模型方法与深度学习模型深度融合,让后者能设计更好模型;另一个是用传统机器学习理论解释或阐述深度学习模型性能。我们关注到相关的重点论文如下:

图片 61

1、传统机器学习模型方法与深度学习模型深度融合

图片 62

图片 63

1)On Compressing Deep Models by Low Rank and Sparse Decomposition

图片 64

原文链接:

矩阵的低秩稀疏分解是经典机器学习方法,假设一个大规模矩阵可分解为两个或多个低维度矩阵的乘积与一个稀疏矩阵的和,从而大大降低原矩阵表示元素个数。在这篇由优必选悉尼AI研究所、新加坡理工大学和悉尼大学共同完成的论文中,该方法被用来模拟深度学习的滤波参数矩阵,在保证模型性能同时,大大降低了参数个数,这对深度学习模型的进一步推广,尤其是智能手机端应用会有很大推动作用。类似文章还有杜克大学的这篇[1]。

图片 65

图片 66

图片 67

-END-

[1] A compact DNN: approaching GoogLeNet-Level accuracy of classification and domain adaptation

图片 68

专 · 知

2)Unsupervised Pixel–Level Domain Adaptation with Generative Adversarial Networks

图片 69

人工智能领域26个主题知识资料全集获取与加入专知人工智能服务群: 欢迎微信扫一扫加入专知人工智能知识星球群,获取专业知识教程视频资料和与专家交流咨询!

领域自适应(Domain Adaptation)是迁移学习(Transfer Learning)的一种,思路是将不同领域(如两个不同的数据集)的数据特征映射到同一个特征空间,这样可利用其它领域数据来增强目标领域训练。深度学习模型训练需要大规模数据,这篇由谷歌发表的文章,提出的思路是对真实物体进行渲染(Rendering),制造大量人造渲染图像,从而帮助深度学习模型训练。

图片 70

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料!

然而,渲染图像与真实图像之间有很大差异(比如背景差异),直接用渲染图像训练得到的深度学习模型并没有产生很好识别性能。本文将渲染图像和真实图像看作两个领域,并结合当前流行的生成对抗网络修正渲染图像,得到更加贴近真实图像的渲染图像(如下图所示:加上类似的背景)。最后再利用这些修正后的渲染图像训练深度学习模型,取得了很好效果。

图片 71

请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~

图片 72

图片 73

AI 项目技术 & 商务合作:bd@zhuanzhi.ai, 或扫描上面二维码联系!

2、传统机器学习理论解释或阐述深度学习模型性能

图片 74

请关注专知公众号,获取人工智能的专业知识!返回搜狐,查看更多

1)Universal Adversarial Perturbations

图片 75

责任编辑:

在现有研究和实际应用中,深度学习模型被观察到对样本噪声或扰动比较敏感,比如在原始图像上加一些很小的噪声或变形,都可能造成误分类。但对什么类型、多大幅度的噪声或扰动会引起这种错误,我们还知之甚少。洛桑联邦理工大学和加州大学洛杉矶分校合作的这篇论文对此问题进行了初步探索。

图片 76

文章基本思想是围绕机器学习中的分类边界和间隔,在原始图像特征空间中计算出一个最小扰动向量,使原始图像跨过分类边界造成误分类。计算得到的这个最小扰动向量被称为通用扰动向量,因为该向量值与模型相关并与具体的图像独立。作者分析了VGG、GoogLeNet和ResNet-152等多个主流深度学习模型,发现其对于相对应的通用扰动向量非常敏感。这项研究对了解深度学习模型的分类边界和模型鲁棒性有很大帮助。

图片 77

2)Global Optimality in Neural Network Training

图片 78

常用深度学习网络中,往往会用到很多非线性函数,如Sigmoid激励函数和ReLu激活函数等,所以整个网络可被看做是一个非线性复合映射函数。这样的函数很大可能是非凸函数,在优化过程中存在很多局部最优解,增加了模型训练难度。但约翰霍普金斯大学的这篇论文证明,在网络构成函数满足一定假设时,能保证得到全局最优解。背后原理是使整个网络的搜索空间只包含全局最优解和平台解,而不存在局部最优解(如下图所示)。

图片 79

该文的证明运用了机器学习中的矩阵分解和对应的优化理论。这项研究工作展示了全局最优解在深度神经网络中存在的条件,为我们设计更加容易训练的模型提供了有价值的指导。

图片 80

图片 81

图片 82

五、弱监督下的图像识别

图片 83

Weakly Supervised Recognition

图片 84

深度学习成功的一大关键因素是大量训练数据,但现实场景中对海量数据作精细数据标注需要大量人力和财力,这就回到了计算机视觉中的基本问题:目标检测 (Object Detection)和语义分割(Semantic Segmentation)。本届CVPR也有论文关注弱监督下该问题的解决,我们将介绍两篇仅依赖图像级别标注的相关研究。

图片 85

1)Deep Self-taught Learning for Weakly Supervised Object Localization

图片 86

这篇最具代表性的目标检测论文由腾讯AI Lab和新加坡国立大学合作完成。在检测器训练时,该文提出了一种依靠检测器模型自主动态挖掘高质量正例样本的方法。鉴于CNN检测器有强大的拟合训练样本能力,错误训练样本 (False Positive)同样能获得较高类别置信度。但当检测器训练其它正例样本时,错误训练样本获得的类别置信度增量 (Relative Score Improvement) 较小,因此当检测器在训练其它Positive样本时,一个Object Proposal获得的类别置信度增量大小可有效反映该样本的真实质量 (True Positive或False Positive)。依赖类别置信度增量动态挖掘高质量训练样本,可有效增强检测器性能。 该文在PASCAL VOC 07和12目标检测任务上取得了目前最先进的效果。

图片 87

图片 88

图片 89

2)Object Region Mining with Adversarial Erasing: a Simple Classification to Semantic Segmentation Approach

图片 90

这篇有代表性的语义分割论文来自新加坡国立大学,提出了用分类网络解决语义分割的新方法。分类网络能提供目标物体的显著区域 (Discriminative Part),但语义分割要求对目标物体全部像素的精确预测,该文利用了一种逐步擦除显著区域方法,不断提高分类网络预测难度。当擦除显著区域和重新训练分类网络交替,按从主要到次要的顺序逐渐获得目标物体全部区域,训练出一个高性能语义分割网络模型。该方法在PASCAL VOC 07和12语义分割问题上取得了目前最佳效果。

图片 91

图片 92

图片 93

一分钟数读CVPR

图片 94

CVPR是近十年来计算机视觉领域全球最有影响力、内容最全面的顶级学术会议,由全球最大的非营利性专业技术学会IEEE(电气和电子工程师协会)主办。今年会议于7月21日至26日在美国夏威夷举行。

图片 95

在评估会议的学术影响力指标上,本次会议均创新高 —— 论文有效提交数为2620篇(40%↑)、录取数为783篇(22%↑)、注册参会人数4950人(33%↑),并在新发布的2017谷歌学术指标中,成为计算机视觉与模式识别领域影响力最大的论文发布平台。

图片 96

在产业影响力指标上,会议赞助金额近86万美元(79%↑),赞助商高达127家(30%↑),囊括了Google、Facebook及腾讯等科技巨头,也有商汤、旷视等众多初创企业。

图片 97

录取论文涉及领域占比最高的五类是:计算机视觉中的机器学习(24%)、物体识别和场景理解(22%)、3D视觉(13%)、低级和中级视觉(12%)、分析图像中的人类(11%)。

图片 98

大会共设44个研讨会(workshop)、22个教程辅导(tutorial)和14场竞赛,覆盖语言学、生物学、3D建模和自动驾驶等计算机视觉的细分领域。

图片 99

现场论文展示分三种形式:12分钟长演讲(Oral)4分钟短演讲(Spotlight)和论文海报展示(Poster),长短演讲共215场,海报展示112个。在参会心得上,我们建议重点参加口述演讲,会对精选文章做长或短的进一步解读;而海报展示数量多、内容杂,只在固定时段有,要用好地图和会程指引,有选择地、集中地参加此环节。展会区囊括各类企业,会从研究到应用进行展示讲解,可选择性参加。

图片 100

关于腾讯AI Lab及其计算机视觉团队

图片 101

腾讯AI Lab成立于2016年4月,专注于机器学习、计算机视觉、语音识别和自然语言理解四个领域「基础研究」,及内容、游戏、社交和平台工具型四大AI「应用探索」,提升AI的决策、理解及创造力,向「Make AI Everywhere」的愿景迈进。腾讯AI Lab主任及第一负责人是机器学习和大数据专家张潼博士,副主任及西雅图实验室负责人是语音识别及深度学习专家俞栋博士。目前团队共有50余位AI科学家及200多位应用工程师。

图片 102

计算机视觉团队(CV团队)是最早组建的研究团队之一,目前有十多位基础研究科学家,大多拥有国内外院校博士学位,并与一个较大的应用工程师团队紧密合作,由计算机视觉和机器学习专家刘威博士领导。我们很注重对青年研究者的培养,团队中应届毕业的博士接近半数,也将继续在海内外招募不同级别的优秀研究者。

图片 103

在基础和前沿研究方向上,CV团队聚焦中高层视觉,尤其视频等可视结构数据的深度理解,同时也在重要的交叉领域发力,如视觉+NLP、视觉+信息检索等。正在进行或计划中的研究项目兼具了挑战性和趣味性,包括超大规模图像分类、视频编辑与生成、时序数据建模和增强现实,这些项目吸引了哥伦比亚和清华等海内外知名大学的优秀实习生参与。

图片 104

团队在本届CVPR上有六篇文章被录取,下面论文一提到的实时视频滤镜技术已在腾讯QQ手机版上线,实现了基础研究到产品应用的迅速转化,正是我们「学术有影响,工业有产出」目标的体现。

图片 105

腾讯AI Lab共六篇论文入选本届CVPR

图片 106

论文一:Real Time Neural Style Transfer for Videos

图片 107

本文用深度前向卷积神经网络探索视频艺术风格的快速迁移,提出了一种全新两帧协同训练机制,能保持视频时域一致性并消除闪烁跳动瑕疵,确保视频风格迁移实时、高质、高效完成。

图片 108

论文二:WSISA: Making Survival Prediction from Whole Slide Histopathological Images

图片 109

论文首次提出一种全尺寸、无标注、基于病理图片的病人生存有效预测方法WSISA,在肺癌和脑癌两类癌症的三个不同数据库上性能均超出基于小块图像方法,有力支持大数据时代的精准个性化医疗。

图片 110

论文三:SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

图片 111

针对图像描述生成任务,SCA-CNN基于卷积网络的多层特征来动态生成文本描述,进而建模文本生成过程中空间及通道上的注意力模型。

图片 112

论文四:Deep Self-Taught Learning for Weakly Supervised Object Localization

图片 113

本文提出依靠检测器自身不断改进训练样本质量,不断增强检测器性能的一种全新方法,破解弱监督目标检测问题中训练样本质量低的瓶颈。

图片 114

论文五:Diverse Image Annotation

图片 115

本文提出了一种新的自动图像标注目标,即用少量多样性标签表达尽量多的图像信息,该目标充分利用标签之间的语义关系,使得自动标注结果与人类标注更加接近。

图片 116

论文六:Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images

图片 117

基于曼哈顿结构与对称信息,文中提出了单张图像三维重建及多张图像Structure from Motion三维重建的新方法。

图片 118

微信腾讯AI实验室(tencent_ailab)授权转载

图片 119

图片 120

图片 121

CCAI 2017 精彩回顾

图片 122

CCAI 2017 | 中国工程院院士李德毅:L3的挑战与量产

图片 123

CCAI 2017 | 周登勇:众包中的统计推断与激励机制

图片 124

CCAI 2017 | 漆远:蚂蚁金服 AI 技术大揭秘, 开放“模型服务平台”

图片 125

CCAI 2017 | 香港科技大学计算机系主任杨强:论深度学习的迁移模型

图片 126

CCAI 2017 | AAAI 执委 Toby Walsh: AI 是中性技术,如何用它更好地为人类服务

图片 127

CCAI 2017 | 日本理化学研究所杉山将:弱监督机器学习的研究进展

图片 128

CCAI 2017 | Hans Uszkoreit:如何用机器学习和知识图谱来实现商业智能化?

图片 129

CCAI 2017 | 史元春:科幻与创新

图片 130

CCAI 2017 | 王颖:论人工智能与艺术

图片 131

CCAI 2017 | 柳崎峰:金融机构的市场机遇与实践

图片 132

CCAI 2017 | 张敏:当人工智能“科学遇到艺术”的一点杂谈

图片 133

CCAI 2017 | 张胜誉:个性化推荐和资源分配在金融和经济中的应用

图片 134

CCAI 2017 | 王蕴红:人工智能科学与艺术的鉴赏创作

图片 135

CCAI 2017 | 王坚博士致辞:人工智能是推动科技发展的动力

图片 136

CCAI 2017 | 李德毅院士大会致辞:中国人工智能步入新阶段

图片 137

CCAI 2017 | 谭铁牛院士致辞:人工智能新热潮下要保持清醒头脑,设定科学的目标

图片 138

图片 139

图片 140

图片 141

图片 142

图片 143

图片 144

图片 145

图片 146

图片 147

图片 148

图片 149

图片 150

图片 151

图片 152

图片 153

图片 154

图片 155

图片 156

图片 157

图片 158

图片 159

图片 160

图片 161

图片 162

图片 163

图片 164

图片 165

图片 166

图片 167

图片 168

图片 169

图片 170

图片 171

图片 172

图片 173

图片 174

图片 175

图片 176

图片 177

图片 178

图片 179

-END-

专 · 知

人工智能领域26个主题知识资料全集获取与加入专知人工智能服务群: 欢迎微信扫一扫加入专知人工智能知识星球群,获取专业知识教程视频资料和与专家交流咨询!

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料!

请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~

AI 项目技术 & 商务合作:bd@zhuanzhi.ai, 或扫描上面二维码联系!

请关注专知公众号,获取人工智能的专业知识!返回搜狐,查看更多

责任编辑:

本文由互联网发布,转载请注明来源:GAN要取代深度学习了?请不要慌!