-
介绍
-
实现
-
Training Data: 带有标签的数据集合
- 评判标准Total Loss: 利用所有训练集数据寻找到Total Loss最小的方法 → 再寻找到Total Loss最小的神经网络参数θ
-
How to pick the best function
- 找最优模型等效于得出一系列模型参数(weights & b)使得总体误差最小化.
- 梯度下降(Gradient Descent)
- step1: 首先假设一个模型, 具有模型参数{w1, w2,...., b1, b2,...}, 这个模型的总体误差为L, 梯度下降算法将对 单个参数w进行处理.
- step2: 给w定义一个初始值, 这个初始值可以是个随机值, 也可以是一个 RBM值.但要注意梯度下降不保证全局最小值, 不同的起点值会到达不同的最小值点.
- step3: 对总体误差L求w的偏导, 如果偏导值为正数, 则减小w, 如果偏导值为复数, 则增大w, 因此我们定义一个公式, 以便求解下一个w值.
- step4: 对所有的模型参数进行梯度下降的处理后可以得到一个最终的坐标(w1, w2,...., b1, b3,....), 如图, 就能得到一个最佳的模型.
-
- Backpropagation思想
-
-
Why Deep?
- more parameters, better performance
- 采用Deep neural network 而不使用 Fat neural network 的原因
- Deep方式可以用更少的数据完成分类, 图解