机器学习基础(笔记1)

c="https://www.codenong.com/getimg_baidu.php?url=https://pics0.baidu.com/feed/50da81cb39dbb6fd694ca99f68846d1e962b379e.jpeg?token=bcd674ef1ef9494d516c056f924d5464" >

1.有监督学习,需要训练,神经网络大多如此,需要人工参与标定;无监督学习不需要标定,但是具有随机性,大多通过聚类算法进行分析;半监督学习需要标定少量的训练材料,结合了两者的优点。半监督学习,利用无监督学习获取大量的有效数据。

2.激活函数:增加了神经网络中的非线性成分,是非常重要的一环。如果不存在激活函数神经网络就是矩阵相乘,仍然是一个线性的关系,就不具有意义。神经网络的激活函数有很多,但斜坡函数不一般。

斜坡函数(ReLU):是神经网络常用的激活函数。具有计算量小,更容易优化和缓解过拟合的优点。

3.损失函数:补偿神经网络训练过程中的损失。希望结果与期望一样,因此需要补偿损失。0-1损失、log损失、绝对损失等。

4.核函数:构成了从线性到非线性的关联关系。Sigmoid核函数用作激活函数。将低维映射到高维,计算依然在低维的计算方式。

5.机器学习重要系数:学习速率(调整权值大小,权值小收敛慢,权值大容易出现波动)、动量系数(防止收敛于局部最优解)、偏置项b(如y=x+b,进行左右平移,实现更好分割)

6.过拟合:把噪声当作目标进行拟合,导致效果变差。主要是由于维度过高。解决办法有降低维度(通过无监督学习进行筛选或人工筛选)、加数据量和清洗数据(处理掉噪声等干扰,避免数据不纯)。

7.欠拟合:数据量过少,拟合效果不好。解决方法包括更换模型、增加数据量和减少化参数。

8.dorpout方式可以有效避免神经元之间的共适应关系,减少过拟合。(随机隐藏一半的神经元,即经历一次前向传播和反向传播后不更新权值w和偏置项b)。

9.最小二乘法类似超定方程的解,通过拟合他们之间最适宜的方程解。

10.数据分为三类:训练数据(训练模型)、验证数据(进行模型的优化)、测试数据(测试有效性),比例6:2:2。

11.留一交叉验证法(顺序留一个作为验证求平均)、K折交叉验证(划分为数等分)。

12.产生式模型:确定一个柑橘所有的特征识别它,如BP;判别式模式:比较柑橘和脐橙的区别。产生式包括朴素贝叶斯等;判别式包括RFB神经网络和支持向量机等。