信息学院首届图灵班学生在第七届国际学习表征会议(ICLR2019)发表论文

图片 7

信息学院首届图灵班学生在第七届国际学习表征会议(ICLR2019)发表论文

日前,第七届国际学习表征会议公布了论文接收名单。北京大学信息科学技术学院2016级图灵班本科生曹芃、许逸伦作为共同第一作者完成的学术论文《Max-MIG:基于信息论的众包联合学习》榜上有名;指导教师为北京大学前沿计算研究中心助理教授孔雨晴和信息学院教授/前沿计算研究中心副主任王亦洲。

原标题:学界 | 最大化互信息来学习深度表示,Bengio等提出Deep INFOMAX

 

作为用来获取大量标注数据的可行方法,众包是指从一个广泛的群体,尤其是在线平台获取对数据样本的标注。然而,由于标注者所给出的标注可能存在各种各样的错误,且标注者所做出的标注错误并不一定是两两独立的,从而需要推断真实的标注。

选自arXiv

我对目前GAN经典的及最新的较有影响力的论文进行了阅读与整理,目前仅完成了论文梗概的总结。后续将会分篇详细介绍。

为此,该论文基于共同学习的框架和最大化互信息,提出一种基于信息论思想、适用于各个信息结构的算法,并称之为Max-MIG。在这种算法中,同时训练数据分类器和标注聚合器,希望最大化的目标函数为二者输出的MIG,即互信息的一个下界。作者证明了当数据分类器与标注聚合器同时取到真实贝叶斯后验概率,MIG取得最大值。MIG的计算方式可以理解为:如果两边的网络对于相匹配的两个输入,两边网络输出一致,则给予奖励;如果对于不匹配的两个输入,两边网络输出一致,则给予惩罚。这样,即可防止两边的网络一直输出相同的无意义的标签,比如一直输出“良性”。
上述算法在生成的数据集与真实的数据集上均取得最佳结果。

作者:**R Devon Hjelm、Bengio等**

 

ICLR是深度学习领域的顶级会议,也是国际发展最快的人工智能专业会议之一;采取公开评审的审稿制度,因其在深度学习领域各方面,如人工智能、统计学和数据科学,以及计算机视觉、计算生物学等重要应用领域发表和展示前沿研究成果而享誉全球。ICLR2019将于2019年5月6—9日在美国路易斯安那州新奥尔良市举行。

参与:高璇、刘晓坤

信息学院首届图灵班学生在第七届国际学习表征会议(ICLR2019)发表论文。归类

原文链接:

style=”font-size: 16px;”>许多表示学习算法使用像素级的训练目标,当只有一小部分信号在语义层面上起作用时是不利的。在这篇论文中,Bengio
等研究者假设应该更直接地根据信息内容和统计或架构约束来学习表示,据此提出了
Deep
INFOMAX(DIM)。该方法可用于学习期望特征的表示,并且在分类任务上优于许多流行的无监督学习方法。他们认为,这是学习「好的」和更条理的表示的一个重要方向,有利于未来的人工智能研究。

题目

引言

发表

在意识层面上,智能体并不在像素和其他传感器的层面上进行预测和规划,而是在抽象层面上进行预测。因为语义相关的比特数量(在语音中,例如音素、说话者的身份、韵律等)只是原始信号中总比特数的一小部分,所以这样可能更合适。

贡献概要

然而,大多数无监督机器学习(至少是部分地)基于定义在输入空间中的训练目标。由于无需捕获少数语义相关的比特,就可以很好地优化这些目标,因此它们可能不会产生好的表示。深度学习的核心目标之一是发现「好的」表示,所以我们会问:是否有可能学习输入空间中未定义的训练目标的表示呢?本文探讨的简单想法是训练表示学习函数(即编码器)以最大化其输入和输出之间的互信息。

理论

互信息是出了名的难计算,特别是在连续和高维设置中。幸运的是,在神经估计的最新进展中,已经能够有效计算深度神经网络的高维输入/输出对之间的互信息。而在本项研究中,研究人员利用这些技术进行表示学习。然而,最大化完全输入与其表示之间的互信息(即全局互信息)不足以学习有用的表示,这依赖于下游任务。相反,最大化输入的表示和局部区域之间的平均互信息可以极大地改善例如分类任务的表示质量,而全局互信息在给定表示的重建完整输入上能发挥更大的作用。

Generative Adversarial Nets

表示的作用不仅仅体现在信息内容的问题上,架构等表示特征也非常重要。因此,研究者以类似于对抗性自编码器或
BiGAN
的方式将互信息最大化与先验匹配相结合,以获得具有期望约束的表示,以及良好的下游任务表现。该方法接近
INFOMAX 优化原则,因此研究者们将他们的方法称为深度
INFOMAX(DIM)。

(Ian Goodfellow, Yoshua Bengio)

本研究贡献如下:

NIPS2014

  • 规范化的深度
    INFOMAX(DIM),它使用互信息神经估计(MINE)来明确地最大化输入数据和学习的高级表示之间的互信息。
  • 互信息最大化可以优先考虑全局或局部一致的信息,这些信息可以用于调整学习表示的适用性,以进行分类或风格重建的任务。
  • 研究者使用对抗学习来约束「具有特定于先验的期望统计特征」的表示。
  • 引入了两种新的表示质量的度量,一种基于 MINE,另一种是 Brakel&Bengio
    研究的的依赖度量,研究者用它们来比较不同无监督方法的表示。

发明GAN,生成器与判别器是较简单的多层感知机,对比了RBM、MCMC、DBN、CAE、GSN等工作,给出经典的二元的优化目标,训练过程的图解及算法流程(训练k次D后更新G,随机梯度下降法优化),证明了唯一最优解的存在,说明了最优解时分布的情况,在MNIST、TFD、CIFAR-10上展示了生成图像

论文:Learning deep representations by
mutual information estimation and maximization

Wasserstein Generative Adversarial Networks

图片 1

(Martin Arjovsky, Soumith Chintala, Leon Bottou)

论文地址:

ICML2017

摘要:许多流行的表示学习算法使用在观察数据空间上定义的训练目标,我们称之为像素级。当只有一小部分信号在语义层面上起作用时,这可能是不利的。我们假设应该更直接地根据信息内容和统计或架构约束来学习和估计表示。为了解决第一个质量问题,研究者考虑通过最大化部分或全部输入与高级特征向量之间的互信息来学习无监督表示。为了解决第二个问题,他们通过对抗地匹配先验来控制表示特征。他们称之为
Deep
INFOMAX(DIM)的方法可用于学习期望特征的表示,并且在分类任务按经验结果优于许多流行的无监督学习方法。DIM
开辟了无人监督学习表示的新途径,是面向特定最终目标而灵活制定表征学习目标的重要一步。

解决原始GAN训练困难、loss函数无法指示训练过程、生成样本缺乏多样性的问题。分析了原GAN中度量分布远近的距离指标:KL散度和JS散度的缺点——训练过程中出现梯度为零无法学习的情况。引出Wasserstein解决以上问题。将该距离引入训练过程,同时为了求解推导出其对偶问题,以Lipschitz限制其最大局部浮动程度(直观上试图使得输入的样本稍微变化后,判别器给出的分数不能发生太过剧烈的变化,实现时仅仅通过限制各参数的变动范围)。由于拟合的是Wasserstein距离,故去掉最后的sigmoid是问题变为回归问题。(中山大学郑华滨分析)

实验

Improved Training of Wasserstein GANs

我们使用以下指标来评估表示。下面编码器都固定不变,除非另有说明:

(Martin Arjovsky)

  • 使用支持向量机(SVM)进行线性分类。它同时代表具有线性可分性的表示的互信息。
  • 使用有 dropout 的单个隐藏层神经网络(200
    个单元)进行非线性分类。这同样代表表示的互信息,其中标签与线性可分性分开,如上面的
    SVM 所测的。
  • 半监督学习,即通过在最后一个卷积层(有标准分类器的匹配架构)上添加一个小型神经网络来微调整个编码器,以进一步评估半监督任务(STL-10)。
  • MS-SSIM,使用在 L2
    重建损失上训练的解码器。这代表输入和表示之间的全部互信息,并且可以表明编码的像素级信息的数量。
  • 通过训练参数为ρ的判别器来最大化 KL 散度的 DV 表示,来表示输入 X
    和输出表示 Y 之间的互信息神经估计(MINE),I_ρ(X,Y)。
  • 神经依赖度量(NDM)使用第二判别器来度量 Y 和分批再组(batch-wise
    shuffled)的 Y 之间的 KL 散度,使得不同的维度相互独立。

ArXiv2017

图片 2

WGAN虽然理论分析完美,但是训练时发现训在不收敛的情况。WGAN的一作认为关键在于原设计中Lipschitz限制的施加方式不对,使得判别器非常倾向于学习一个简单的映射函数。其在新论文中提出了相应的改进方案:使用梯度惩罚的方法,加入新的loss项使梯度越接近Lipschitz常数K越好,在采样时也不需要整个空间上采,而是抓住生成样本与真实样本集中的区域进行采样求取loss。

表 1:CIFAR10 和 CIFAR100
的分类准确率(top-1)结果。DIM(L)(仅局部目标)显著优于之前提出的所有其他无监督方法。此外,DIM(L)接近甚至超过具有类似架构的全监督分类器。具有全局目标的
DIM 表现与任务中的某些模型相似,但不如 CIFAR100 上的生成模型和
DIM(L)。表中提供全监督分类结果用于比较。

Towards Principled Methods for Training Generative Adversarial
Networks

图片 3

ICLR2017

表 2:Tiny ImageNet 和 STL-10
的分类准确率(top-1)结果。对于 Tiny ImageNet,具有局部目标的 DIM
优于所有其他模型,并且接近全监督分类器的准确率,与此处使用的 AlexNet
架构类似。

是WGAN的前作,详细分析了GAN存在的问题,最后提出解决方案。其分析了以下几个问题:为何D越好则更新过程越糟糕(D过好则难以学出正确的梯度信息);为何GAN的训练非常不稳定(因为G和D的loss优化目标是相反的);梯度消失问题(两个分布很难有交集,原来的loss函数算出的loss为常数,本文给出一种解决方法是1加入噪声使两分布拉近,2使用Wasserstein距离这种连续性度量的距离)

图片 4

Loss-Sensitive Generative Adversarial Networks on Lipschitz
Densities

图 5:使用 DIM(G)和 DIM(L)在编码的
Tiny ImageNet 图像上使用 L1
距离的最近邻。最左边的图像是来自训练集的随机选择的参考图像(查询)以及在表示中测量的来自测试集的最近邻的四个图像,按照接近度排序。来自
DIM(L)的最近邻比具有纯粹全局目标的近邻更容易理解。

(Guojun Qi,伊利诺伊大学)

图片 5

ArXiv2017


7:描绘判别器非归一化输出分布的直方图,分别是标准 GAN、具有-log D 损失的
GAN、最小二乘 GAN、Wasserstein GAN 以及作者提出的以 50:1
训练率训练的方法。

与WGAN关系密切,均采用Lipschitz限制。由于GAN未对真实样本的分布做任何的限定,使得GAN模型具有无限的建模能力,也就导致了过拟合。LSGAN限制其无限建模能力,换成使用按需分配(集中力量优化生成的不好即距离真实样本较远的图像)的建模形式。其引入新的目标函数来实现这一能力。文章给出了LSGAN泛化能力的分析、与WGAN的对比,在第8章给出推广:CLSGAN使得可以利用类别标签来让GAN获得不同类别的生成能力(c设置为类别标签只是其模型的一个特例),文中还分析了在给定条件下的解的理论分析结果。

方法:深度 INFOMAX

On Unifying Deep Generative Models

图片 6

(Zhiding Hu,CMU)


1:图像数据上下文中的基本编码器模型。将图像(在这种情况下)编码到卷积网络中,直到有一个
M×M 特征向量的特征图与 M×M
个输入块对应。将这些矢量(例如使用额外的卷积和全连接层)归一化到单个特征向量
Y。目标是训练此网络,以便从高级特征中提取有关输入的相关信息。

ArXiv2017

图片 7

构建 GAN 和 VAE
深度生成建模方法之间的形式联系。首先对各自进行综述,对二者的各个步骤进行对比,认为其有着深刻的联系。然后提出二者的结合形式,如对抗变分自编码器。

图 2:具有全局 MI(X; Y)目标的深度
INFOMAX(DIM)。研究者通过由额外的卷积层、flattening
层和全连接层组成的判别器来传递高级特征向量 Y 和低级 M×M 特征图(参见图
1)以获得分数。通过将相同的特征向量与来自另一图像的 M×M
特征图结合来绘制伪样本。

改进

结论

Unsupervised Representation Learning with Deep Convolutional
Generative Adversarial Networks

在这项研究中,研究者们介绍了 Deep
INFOMAX(DIM),这是一种通过最大化互信息来学习无监督表示的新方法。DIM
允许在架构「位置」(如图像中的块)中包含局部一致信息的表示。这提供了一种直接且灵活的方式来学习在各种任务上有优良表现的表示。他们认为,这是学习「好的」和更条理的表示的一个重要方向,这将利于未来的人工智能研究。

ArXiv2015

本文为机器之心编译,转载请联系本公众号获得授权。返回搜狐,查看更多

DCGAN,对原始GAN的第一个重要改进。为生成器与判别器引入深度模型,在generator和discriminator上都使用batch
normalization,无理论创新,均为深度模型训练时的改进。

责任编辑:

InfoGAN: Interpretable Representation Learning by Information
Maximizing Generative Adversarial Nets

(Xi Chen)

NIPS2016

条件GAN,使得输入向量的每个值都有各自对应的含义(可解释性),如控制生成的类别、控制生成人物的发色等。方法是最大化输入的随机向量+条件向量与输出分布之间的互信息,使得输入的条件信息与输出的相关性变大。其在D中给出各个类的概率,然后在loss中也添加相应的loss项(Ls+Lc)。最后展示的结果也是按照各个类别产生的新图像,在MNIST、3D人脸与3D椅子等数据集上给出了生成图像的展示。

Improved Techniques for Training GANs

(Tim Salimans,Goodfellow,Xi Chen)

ArXiv2017

提出了训练GAN时的几种技巧,主要是一种新的BN方法(原来的BN能够提高网络的收敛,但是问题是layer的输出和本次batch内的其他输入相关):首先从训练集中拿出一个batch在训练开始前固定起来,算出这个特定batch的均值和方差,进行更新训练中的其他batch。再就是特征匹配,提出以中间特征作为衡量标准,而不是预测的标签。在MNIST、CIFAR-10、SVHN上得到了目前最好的结果。

Adversarial Feature Learning

ICLR2017

与各领域的结合

Unsupervised and Semi-Supervised Learning with Categorical Generative
Adversarial Networks

ICLR2016

从未标记或部分标记的样本中学习判别分类器。在观测样本和他们预测的类别分布间trades-off互信息,对生成式聚类、判别式聚类等进行了综述,通过指派一个标签y给每个样本,将数据分类到K个类别中去的分类器,而不是学习一个二分类函数,将问题由“生成器生成属于数据集的样本”变为“生成属于K个中的一个确切的类别的样本”。在其方法中,会先定性地评估对抗生成器生成的样本的保真度,然后确定CatGAN目标和判别聚类算法(RIM)之间的联系。

Photo-Realistic Single Image Super-Resolution Using a Generative
Adversarial Network

CVPR2017

将生成式对抗网络(GAN)用于SR问题(引入D来解决不同数据域之间分布不一致的问题),使用GAN生成图像中的细节。传统的方法使用的代价函数一般是最小均方差(MSE),即各个像素之间的差值,但这样做会使得生成的图像过于平滑。本文的目标函数第一部分是基于内容的代价函数,第二部分是基于对抗学习的代价函数。基于内容的代价函数除了传统的像素空间的最小均方差以外,又包含了一个基于特征空间的最小均方差。

Semantic Segmentation using Adversarial Networks

(FAIR, Soumith Chintala-WGAN二作)

NIPS2016

 

Generative Adversarial Text to Image Synthesis

ICML2016

 

admin

网站地图xml地图