从 0 开始机器学习 - 一文入门多维特征梯度下降法!
版权声明:本文为 DLonng 原创文章,可以随意转载,但必须在明确位置注明出处!
今天登龙跟大家分享下我对多维特征的读取、缩放和多变量梯度下降算法的理解,文章不长,有理论也有实际的代码,下面开始,Go!
一、如何表示多维特征?
1.1 特征缩放
实际项目中在读取多维特征之前需要先对数据进行缩放,为什么呢?
因为在有了多维特征向量和多变量梯度下降法后,为了帮助算法更快地收敛,还需要对选用的特征进行尺度缩放,其实就是缩小特征值,将多个特征的值都缩小到同样大小的区间,通常是缩小到 [-1, 1] 周围,以下图为例:
在没有进行特征缩放之前,两参数梯度下降的等高线图呈竖的椭圆形,这是因为横轴和纵轴参数范围不同,进而导致算法在寻找最小值时会迭代很多次,而当进行缩放使得横纵轴范围大致相同后,等高线图基本呈圆形,算法在迭代的时候往一个方向很快就能找到最小值,大大减少迭代次数。
缩放的最终结果不一定非要准确到 [-1, 1],比如 [-3, 3],[-2, 1] 这些范围不是太大都是可以的,一个又常用有简单的特征缩放计算方法是:
\[x_n=\frac{x_n - \mu_n}{s_n}\]其中 ${\mu_{n}}$ 是平均值,${s_{n}}$ 是(max - min),比如用这个公式将所有的房屋面积和卧室数量进行缩放:
- $x_1 = (size - 1000) / 2000$,其中 1000 是面积平均值,2000 是最大面积减最小面积。
- $x_2 = (bedrooms - 2) / 5$,其中 2 是卧室数量平均值,5 个最大卧室数量减去最小卧室数量。
理论学会后,再来学习下实际的特征缩放代码:
# 特征缩放
def normalize_feature(df):
# 对原始数据每一列应用一个 lambda 函数,mean() 求每列平均值,std() 求标准差
return df.apply(lambda column: (column - column.mean()) / column.std())
我们用这个函数来实际缩放一下含有 2 个特征的原始房价数据:
# 读取原始数据
raw_data = pd.read_csv('ex1data2.txt', names = ['square', 'bedrooms', 'price'])
# 显示前 5 行
raw_data.head()
# 对原始数据进行特征缩放
data = normalize_feature(raw_data)
# 显示缩放后的前 5 行数据
data.head()
可以看到缩放后的数据范围基本都在 $[-1, 1]$ 区间左右,说明我们的特征缩放成功了 ^_^!下面来学习如何读取多维特征!
1.2 读取多维特征
还记得上篇文章我们介绍的第一个机器学习算法吗?即通过房屋面积来预测价格,这个问题中只使用一个输入特征房屋面积,可现实生活中要解决的问题通常都含有多个特征,并且用多个特征训练出的模型准确度更高,那么如何机器学习算法如何处理多个特征的输入呢?
我们还用预测房价的例子,不过这次要增加另外 3 个特征,卧室数量,房屋楼层,房屋年龄:
这样一来,我们就有了 4 个输入特征了,特征多了,表示的方法也要升升级了:
- $n$:输入特征的数量,即特征矩阵列数,也即特征向量的维度
-
${x^{\left( i \right)}}$:训练集中第 $i$ 个实例向量,就是特征矩阵的第 $i$ 行,比如列向量 ${x}^{(2)}\text{=}\begin{bmatrix} 1416 & 3 & 2 & 40 \end{bmatrix}^T$
- ${x_j}^{\left( i \right)}$:训练集中第 $i$ 个实例的第 $j$ 个特征,比如 $x_2^{\left( 2 \right)}=3$
特征数量增加了,之前的假设函数肯定也需要修改,要把增加的特征变量和参数加上:$h_{\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+…+{\theta_{n}}{x_{n}}$,虽然这样表示没问题,但是却不方便利用向量来计算,因为参数 $\theta$ 有 n + 1 个,但 $x$ 只有 n 个,那怎么办呢?
很简单,我们额外增加一个 ${x_0}=1$,则上式变为:
\[h_{\theta} \left( x \right)={\theta_{0}}{x_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}}\]这样一来就可以写成向量相乘的形式:
\[h_{\theta} \left( x \right)={\theta^{T}}X\]你可能要问了为何要写成向量的形式?主要因为 2 点:
- 使用向量方便程序编写,一句计算特征向量的代码就可以同时计算多个输入参数,因为一个特征向量中包含所有输入参数
- 使用向量方便算法执行,梯度下降算法要求参数同时更新,如果不使用向量,那更新起来非常麻烦。
通过增加一个维度 $x_0 = 1$,最终训练集的特征矩阵的大小为:$m * (n + 1)$,其中 m 为行数,n + 1 为列数。
那来看下读取多维数据并添加一列全 1 向量的函数代码:
# 读取原始数据,返回 m * (n + 1) 维特征矩阵
def get_X(df):
# 创建 m 行 1 列的数据帧
ones = pd.DataFrame({'ones': np.ones(len(df))})
# 合并全 1 向量作为元素数据第一列,axis = 0 按行合并,anix = 1 按列合并
data = pd.concat([ones, df], axis=1)
# 返回特征矩阵
return data.iloc[:, :-1].values
为了简单点,这里假设原始房价数据只有 2 个输入特征,即房屋面积和卧室数量:
我们用上面的函数来读取下数据特征到向量 X
:
# 读取原始数据,增加第一列全 1 向量
X = get_X(data)
# 输出数据、维度和类型
print(X.shape, type(X))
print(X)
输出结果如下:
# 47 行,3 列 = 47 * (2 + 1)
(47, 3) <class 'numpy.ndarray'>
可以看到特征矩阵的第一维列向量全为 1,后两列不变(数据换成科学计数法表示),这与我们上面介绍的对多维特征的操作方法结果相同!读取多维特征之后,我们就可以将特征矩阵 X
的每一行作为一个特征向量(就是特征组成的向量 =_=),并用它们来训练机器学习算法啦!
以上就是我对多维特征作为机器学习算法输入的一些理解,非常感谢吴恩达老师的公开课 ^_^。上面的代码都在文末我的 Github 仓库,直接下载就能运行,记得给我个 star 哦!
二、多变量梯度下降法
多维特征读取后,就可以学习多变量梯度下降法了,其实与上一篇博客的单变量梯度下降原理是一样的,只不过增加了特征变量,相应地参数也就增加了。
比如线性回归的多变量假设函数、代价函数、梯度下降法分别如下:
- 假设函数:$h_{\theta}\left( x \right)=\theta^{T}X={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+…+{\theta_{n}}{x_{n}}$
- 代价函数:$J \left( \theta_0, \theta_1 … \theta_n\right) = \frac{1}{2m}\sum\limits_{i=1}^m \left( h_{\theta}(x^{(i)})-y^{(i)} \right)^{2}$
- 多变量梯度下降法
因为参数增加到 n 个,所以梯度下降的偏导数也要分别对每个参数求一次,然后同时更新 n 个参数:
比如当 $n>=1$ 时更新前 3 个参数:
我觉得挺好理解的,只需要按照单变量梯度下降的逻辑拓展下变量和参数的数量即可,前提一定要完全理解单变量的梯度下降。
那继续来看下多变量梯度下降的算法代码,与单变量梯度下降一毛一样,先计算偏导数:
# 计算偏导数
def gradient(theta, X, y):
m = X.shape[0]
inner = X.T @ (X @ theta - y)
return inner / m
再迭代下降:
# 批量梯度下降
# epoch: 下降迭代次数
# alpha: 初始学习率
def batch_gradient_decent(theta, X, y, epoch, alpha = 0.01):
# 计算初始成本:theta 都为 0
cost_data = [lr_cost(theta, X, y)]
# 创建新的 theta 变量,不与原来的混淆
_theta = theta.copy()
for _ in range(epoch):
# 新的 theta = 旧的 theta - 学习率 * 偏导数
_theta = _theta - alpha * gradient(_theta, X, y)
# 累加成本数据,用于可视化
cost_data.append(lr_cost(_theta, X, y))
return _theta, cost_data
来调用下这个梯度下降函数,初始学习率 alpha
设置为 0.01,迭代 epoch = 500
次:
final_theta, cost_data = batch_gradient_decent(theta, X, y, epoch, alpha = alpha)
这是最终的成本和迭代次数的曲线,可以看到成本 cost 最终基本趋于不变,说明梯度下降算法收敛啦!
话说我之前忘记讲解单变量梯度下降的代码了,下次一定补上!文章内的代码仓库:
OK,今天就跟大家分享这些,喜欢的小伙伴记得关注下面的公众号,持续关注我哦!
本文原创首发于微信公号「登龙」,分享机器学习、算法编程、Python、机器人技术等原创文章,扫码即可关注!
DLonng at 04/01/20