【深度学习路线图】关键概念、模型及其发展关系

来源:新智元 作者:网友

Perez 发现,他跟踪研究深度学习好几年,发现还没有人制作过一个地图将事情的发展脉络梳理出来。于是,他很快自己动手做了一份。


需要指出的是,这只是一份非常初级的地图,有很多关键概念和思想都没有纳入进来。不过,就像 Perez 自己说的那样,这只是个开始,希望有更多人站出来继续扩充这份地图


据 Perez 介绍,他的这份地图里,无监督学习的部分来自苹果 AI 负责人、CMU 教授 Russ Salakhutdinov 的演讲。强化学习的部分则来自 OpenAI 研究科学家、伯克利教授 Pieter Abbeel 的演讲。


深度学习发展日新月异,地图中标记出来的概念还有很多的衍生,这次尚未没有收录。此外,图中已有概念之间的关系也没有全部标出,例如,卷积神经网络(CNN)可以用于值迭代(Value Iteration),对抗生成网络(GAN)和变分自编码器(VAE)也可以使用深度学习框架。


金字塔的顶部:元学习、模块化深度学习、市场调节


首先,在更高级的层面,Perez 认为存在这样的关系:

blob.png

Gartner 分析认为,算法将形成一个全球性的交易市场,世界各地的研究人员、工程师都能在这个市场上创造、分享乃至合成大规模的新算法。届时,算法也将变得像集装箱一样,能够任意组和扩展,从而搭建适用于不同应用的架构。就像当年的 App 经济,算法经济也将催生出全新一代的专业技术初创企业,并且革新机器与机器之间的交互方式——当然,这些都离不开市场的调节。


而元学习(Meta Learning)也就是让机器学会学习(learning to learn)。元学习的发展会影响深度学习的发展(反之亦然),同时也与应用需求密切相关。


在上个月谷歌大脑负责人 Jeff Dean 在 UCSB 做了题为《通过大规模深度学习构建智能系统》的演讲,其中就提到谷歌大脑最近的一个研究热点是自主机器学习,也即让机器学会学习。Jeff Dean 表示,目前人工智能领域解决问题所需的就是机器学习技术、计算和数据,我们能否减少对这种技术本身的需求呢?他认为是可能的。“自动机器学习”这个方向正是他来到的谷歌大脑团队正在积极探索的、最有希望的领域之一。”


接下来,在 Perez 的路线图中,无监督学习(Unsupervised Learning)属于元学习,而强化学习(Reinforcement Learning)则是由市场调节驱动的。

blob.png

下面就是 Carlos E. Perez 根据他的理解画出的深度学习路线图。

blob.png

图上文字太小看不清?


没关系,下面我们来看局部图:


监督学习→优化算法


blob.png

从模块化深度学习发展出来的第一部分就是监督学习(Supervised Learning),而在监督学习中会用到各种优化算法(Optimization Algorithm),优化算法有很多,最常见的一个就是随机梯度下降(SGD),其他还有二阶算法、不含梯度的算法。


值得注意的是,Perez 将“自主学习”(Learning to Learn)也算作优化算法的一种——当然,机器/神经系统自我完善也算是优化吧。


监督学习→目标函数

blob.png

依然是从模块化深度学习出来到监督学习,监督学习的另一个分支是各种目标函数(Objective Function),包括 EMD、KL 散度和基于能量的模型(Energy Based Model)。


监督学习→各种层

blob.png

在路线图中,由监督学习延伸出去的还有“层”(Layer)这个概念,层又分为:卷积层(CNN)、自回归层(Autoregressive layer)、全连接层(MLP),以及带有记忆的层(Layers with Memory),典型的就是长短时记忆(LSTM)模型。


再往下分(在图中应该是往上走),PixelCNN 看名字也知道是属于 CNN 的,PixelRNN 则是属于 RNN 的。而 RNN 循环神经网络(或者叫递归神经网络),是一种自回归的模型。


无监督学习→概率模型→显示密度模型


接下来,我们来看 Perez 关于无监督学习和强化学习的梳理。


首先是无监督学习,正如上文所说,在 Perez 的路线图中,无监督学习(Unsupervised Learning)属于元学习(Meta-Learning)。


无监督学习分为概率模型(Probabilistic Model)和非概率模型(Non-Probabilistic Model)。稀疏编码、自编码器和 K-means 都属于非概率模型。

blob.png

而在概率模型中衍生出了两条分支:显式密度模型(Explicitly Density Model)和隐性密度模型(Implicit Density Model),现在大火的生成对抗网络(GAN)就属于后者。


显式密度模型又分为易解模型(Tractable Model)和难解模型(Non-Tractable Model)。NADE、PixelRNN 都属于可解模型。而玻尔兹曼机(BMV)、变分自编码器(VAE)则属于难解模型。


强化学习→策略优化 & 动态编程


最后来看强化学习(Reinforcement Learning),也即通过试错、单纯地通过奖励或者惩罚完成的学习范式。DeepMind 创新性地将强化学习和深度学习融合起来,创造出的 AlphaGio 惊艳了世界,DeepMind 后来相继研发出的智能体也都在许多困难领域实现人类级别的表现。


在 Perez 的路线图中,强化学习有两大分支,策略优化(Policy Optimization)和动态编程(Dynamic Programming)。


而策略优化又分为无导数优化方法(Derivative Free Optimization)和策略梯度方法(Policy Gradients)。


动态编程则衍生出值迭代(Value Iteration),再到 Q-Learning。3 年前,DeepMind 推出了第一个获得大范围成功的深度增强学习算法,内含的核心概念是使用深度神经网络代表 Q-Nerwork,并且训练这一 Q-Nework,让其预测总体的奖励。最重要的是,DeepMind 当时解决稳定性的问题,为 50 个不同的 Atari 游戏分别训练了不同的、不含任何先验知识的 DQN 智能体,结果 DQN 在近一半的游戏中都达到了人类的水平。这也成了 DeepMind 2015 年发表在 Nature 的论文。


动态编程的另一条分支是策略迭代(Policy Iteration)。


值得注意,策略梯度和策略迭代最后都能推导出 Actor Critic 方法。

blob.png

进击的深度学习


深度学习还在不断发展,不断有新的模型和架构产生。就像最开始说的,这份路线图只是草图,需要更多的人来完善——不仅仅是图,还有深度学习本身。

blob.png

相关文档推荐

深度学习在互联网房产推荐场景的算法实践.PDF

22321151979 胡作梁 3.35MB 33页 积分5

深度学习大模型在推荐场景的落地.PDF

22321151971 文亮 2.49MB 23页 积分5

深度学习在科学研究中的应用.PDF

22321151849 于子叶 4.06MB 32页 积分5

基于深度学习的自然语言语义解析.PDF

4234131425 陈波 3.28MB 98页 积分8

机器视觉应用中的深度学习技术.PDF

4234131381 呼志刚 5.79MB 39页 积分5

语音识别中的深度学习实践.PDF

4234131377 俞凯 6.27MB 87页 积分10

深度学习训练平台建设中的性能优化实践.PDF

2232971236 胡文晖 2.68MB 15页 积分5

58同城深度学习推理平台基于Istio的云原生网关实践.PDF

2233128885 魏竹斌 2.45MB 25页 积分5

阿里云上深度学习建模实践.PDF

2232971234 程孟力 4.44MB 35页 积分5

阿里云云原生深度学习平台 PAIDLC 实践与落地.PDF

4234131370 穆冰森 3.55MB 17页 积分4

相关文章推荐