引言
说明:本章内容为博主根据原教程记录自己的学习笔记,来源:https://zh-v2.d2l.ai/ ,内容版权归原作者所有。
# 引言
深度学习:是一类技术的总称,是拥有多层表征的表征学习.
传统的机器学习的缺点:传统的机器学习难以对数据的原始形式进行加工。常常需要工程知识和专业知识去将原始的数据转换成有特征的向量,以便机器去识别。
在辨别的工作中,高层表征能够放大重要的方面,而抑制不相关的变量。
以一张图片为例,常常以一个像素值的数组表示,并且在第一层的被学习的特征通常代表特定方向或位置的边界。第二层则根据发现特定的边界排布,识别出特定的图案,尽管这些在边界有小部分的变化。第三层则是将图案综合成更大的符合熟悉物体的一部分的组合。接下来的层次则根据这些部分的组合识别物体。
深度学习的关键是,每一层的特征并不是由人类工程师所设计的,它们是通过使用一种通用学习的过程从数据中习得的。
# 监督学习
监督学习:需要被标记的样本,通过对输出和期望的分数向量进行距离计算,调整内部参数,权重向量被向梯度向量的反方向调整。
监督学习所完成的任务: 1.回归 2.分类 3.标记 4.搜索(返回的顺序很重要)5.推荐系统 6. 序列学习(标记和解析(语法分析)、自动语音识别、文本到语音、机器翻译(转化后的序列顺序也会变化))
# 无监督学习
需要进行自发学习 无监督学习需要回答的问题:
- 聚类(clustering)问题:在没有标签的情况下怎没给数据分类。
- 主成分分析(principal component analysis)问题:怎么找到少量的参数,来准确地捕捉数据的线性相关属性。
- 因果关系(causality)和概率图模型(probabilistic graphical models)问题:能否描述观察到的许多数据的根本原因?能否仅仅通过数据发现它们之间的关系。
- 生成对抗性网络(generative adversarial networks):为我们提供一种合成数据的方法。
# 与环境互动
离线学习(offline learning):没有进行与环境的交互
而考虑“与真实环境互动”将打开一整套新的建模问题。
- 环境还记得我们以前做过什么吗?
- 环境是否有助于我们建模?
- 环境是否是与模型进行对抗?
- 环境是否重要?
- 环境是否变化?如何变化?
当训练和测试数据不同时,最后一个问题提出了**分布偏移(distribution shift)*问题。
# 强化学习
在强化学习问题中,智能体(agent)在一系列的时间步骤上与环境交互。每个特定时间点,智能体接收一些观察(observation),并且必须选择一个动作(action),然后通过某种机制将其传输回环境,最后智能体从环境中获得奖励(reward)。
强化学习者必须处理学分分配(credit assignment)问题:决定哪些行为时值得奖励的,哪些行为是需要惩罚的。
强化学习可能还必须处理部分可观测性问题,当前的观察结果可能无法阐述有关当前状态的所有信息。
来利用当前最好的策略,还是探索新的策略空间(放弃一些短期回报来换取知识).
马尔可夫决策过程(markov decision process):当环境可被完全观察到时。
上下文赌博机(contextual bandit problem):当状态不依赖于之前的操作时.
多臂赌博机(multi-armed bandit problem):当没有状态,只有一组最初未知回报的可用动作时.