引言

说明：本章内容为博主根据原教程记录自己的学习笔记，来源：https://zh-v2.d2l.ai/ ，内容版权归原作者所有。

# 引言

深度学习：是一类技术的总称,是拥有多层表征的表征学习.

传统的机器学习的缺点：传统的机器学习难以对数据的原始形式进行加工。常常需要工程知识和专业知识去将原始的数据转换成有特征的向量，以便机器去识别。

在辨别的工作中，高层表征能够放大重要的方面，而抑制不相关的变量。

以一张图片为例，常常以一个像素值的数组表示，并且在第一层的被学习的特征通常代表特定方向或位置的边界。第二层则根据发现特定的边界排布，识别出特定的图案，尽管这些在边界有小部分的变化。第三层则是将图案综合成更大的符合熟悉物体的一部分的组合。接下来的层次则根据这些部分的组合识别物体。

深度学习的关键是，每一层的特征并不是由人类工程师所设计的，它们是通过使用一种通用学习的过程从数据中习得的。

监督学习：需要被标记的样本，通过对输出和期望的分数向量进行距离计算，调整内部参数，权重向量被向梯度向量的反方向调整。

监督学习所完成的任务： 1.回归 2.分类 3.标记 4.搜索（返回的顺序很重要）5.推荐系统 6. 序列学习（标记和解析（语法分析）、自动语音识别、文本到语音、机器翻译（转化后的序列顺序也会变化））

需要进行自发学习 无监督学习需要回答的问题：

聚类（clustering）问题：在没有标签的情况下怎没给数据分类。
主成分分析（principal component analysis）问题：怎么找到少量的参数，来准确地捕捉数据的线性相关属性。
因果关系（causality）和概率图模型（probabilistic graphical models）问题：能否描述观察到的许多数据的根本原因？能否仅仅通过数据发现它们之间的关系。
生成对抗性网络（generative adversarial networks）：为我们提供一种合成数据的方法。

离线学习(offline learning):没有进行与环境的交互

而考虑“与真实环境互动”将打开一整套新的建模问题。

当训练和测试数据不同时，最后一个问题提出了**分布偏移（distribution shift）*问题。

在强化学习问题中，智能体（agent）在一系列的时间步骤上与环境交互。每个特定时间点，智能体接收一些观察（observation），并且必须选择一个动作(action)，然后通过某种机制将其传输回环境，最后智能体从环境中获得奖励(reward)。

强化学习者必须处理学分分配（credit assignment）问题：决定哪些行为时值得奖励的，哪些行为是需要惩罚的。

强化学习可能还必须处理部分可观测性问题，当前的观察结果可能无法阐述有关当前状态的所有信息。

来利用当前最好的策略，还是探索新的策略空间（放弃一些短期回报来换取知识）.

马尔可夫决策过程(markov decision process)：当环境可被完全观察到时。

上下文赌博机（contextual bandit problem）：当状态不依赖于之前的操作时.

多臂赌博机（multi-armed bandit problem）：当没有状态，只有一组最初未知回报的可用动作时.