大家好,如果您还对深度学习入门:基础概念与总结不太了解,没有关系,今天就由本站为大家分享深度学习入门:基础概念与总结的知识,包括的问题都会给大家分析到,还望可以解决大家的问题,下面我们就开始吧!
b.数据清洗
c.数据分割
d.数据特征工程
e.算法对象构建
f.算法模型训练
g。算法模型有效性评估
h.如果模型评价不好,则进入模型的调整阶段。主要调整如下:
-1。考虑一个完全不完整的数据。能否通过数据采集添加更多特征信息? -2。考虑特征之间的关系。是否可以通过特征融合来增加一些特征信息? -3。根据算法的目标属性的特点,可以考虑改变一些算法模型-4。考虑模型的参数调整(超参数的优化)-5。考虑集成算法(bagging、boosting、stacking)i。如果模型评价很好,则进入模型的保存阶段,主要保存方法如下:
方法一:二进制磁盘文件
方法:通过sklearn中的joblib将模型保存为二进制磁盘文件。优点:简单,实时预测数据。缺点:仅支持Python语言加载机器学习模型。方法二:直接保存预测结果。
方法:直接使用训练好的模型对所有数据进行预测,并将预测结果直接保存在数据库中。优点:简单,不受语言限制。缺点:对于新数据没有预测结果。只能等到下一个模型建立起来才能预测结果。只有新的数据才能产生预测结果。方法三:保存模型参数。
Method:对于一些可以获得模型参数的模型,例如:线性回归、逻辑回归等算法;模型参数可以直接保存在数据库中,例如:线性回归的项和截距项可以直接保存在数据库中。优点:简单、不受干扰语言限制、数据实时预测缺点:很多模型没有模型参数或者无法获取模型参数。模型的预测过程
方法一:二进制磁盘文件
直接使用sklearn的joblib中的API加载二进制磁盘文件,形成相应的算法模型。使用加载的算法模型直接对数据进行预测,并将预测结果返回给调用者。方法二:直接保存预测结果。
预测模块根据相关信息直接从数据库中获取预测结果。方法三:保存模型参数。
从数据库中读取模型参数,然后根据算法的执行过程将模型参数构造成执行算法函数。使用构建的算法函数对数据进行预测,并将预测结果返回给调用者进行模型更新。
模型需要定期更新;因为数据会发现变化,模型更新后,需要考虑新模型和旧模型的效果对比
2. 算法模型的效果评估方式
分类算法
准确性
默认评估指标准确度
记起
混淆矩阵
F1值
鹏
曲线下面积
回归算法
均方误差
均方根误差
MAE
R2
默认评价指标聚类算法
轮廓系数的其他指标与分类算法类似
3. 超参数给定的方式
基于经验,通过交叉验证给出,通过GridSearchCV网格参数交叉选择验证给出
二、回归算法
1. 线性回归
a.什么是线性回归?
-1。该算法模型属于回归算法,即目标属性y为连续值-2。如果特征属性x与目标属性y之间的映射关系是线性关系,那么这样构建的模型称为线性回归b。线性回归的损失函数是什么?
-1。什么是损失函数?
决定模型优化方向的函数。该函数反映了预测值与实际值之间的差异信息;当差异较小时,即损失函数较小时,模型最优;通过这个损失函数的定义,可以将模型的优化过程转化为损失函数最小值的求解过程。 -2。常见损失函数
最小平方和损失函数(最小二乘损失函数)
线性回归算法中默认的交叉熵损失函数
-3.注意
机器学习中的损失函数是固定的,eg:线性回归使用最小二乘和损失函数,逻辑回归使用交叉熵损失函数.
一般来说,在深度学习中:
回归应用
最小平方和损失函数分类的应用
交叉熵损失函数C.线性回归算法的求解方法是什么?
基于线性代数直接计算损失函数的最小值(最小二乘解法)
梯度下降
批量梯度下降
随机梯度下降
在大规模数据集的训练过程中,建议小批量使用梯度下降的这种方法。
d.线性回归有哪些问题?
因为在线性回归中,假设特征属性x和目标属性y之间的映射关系是线性关系,但在实际业务数据中,x和y之间的关系可能不是线性关系,所以直接使用线性回归模型不是很有效。解:多项式线性回归e扩展的其他线性回归算法
多项式线性回归LassoRidgeElastic Net
2. 欠拟合
问题描述:模型没有提取训练数据集的数据特征,导致训练后的模型在训练数据集上表现不佳。
原因:
模型的学习能力太弱。该数据集不适合当前模型。数据集中的样本数量太少。解决方案:
换一个学习能力强的模型。利用集成学习的思想训练模型对数据进行特征工程,将数据改变成适合当前模型的形式,增加数据的特征属性,或者增加数据的样本量。 eg: 如何使用线性模型来处理非线性用数据进行训练?
多项式线性回归:可以考虑先将低维空间中的数据映射到高维空间,使样本数据更加离散,从而将数据变成线性数据,然后使用普通的线性回归算法来映射扩展后的数据。使用数据训练模型(常用方法:多项式展开+线性回归)
3. 过拟合
问题描述:模型从训练数据中学习到了太多的训练数据特征信息,有可能一些噪声异常的数据特征也被学习了已获悉。结果,模型在测试数据或生产数据上表现不佳,但在训练数据集上表现良好。
原因:
模型的学习能力太强了。数据集中的样本数量太少。数据中存在大量噪声和异常样本。解决方案
限制模型的学习能力(添加正则化项/添加惩罚项)
L1范数
线性回归中,即Lasso算法;更容易造成模型参数稀疏,更适合特征选择L2范数。
线性回归中,是Ridge算法;算法效果比较稳定。改变模型超参数,降低学习能力。
更改模型以使用学习能力较弱的模型
使用集成算法
增加样本数据大小
删除一些无用的特征属性(减少一些噪声特征属性的影响),同时添加一些有效的特征属性
4. 线性的分类算法
思路:首先,使用线性回归算法(普通线性回归、Ridge等)对数据进行线性拟合,使得对于一类数据,计算出的函数值为正,而对于另一类数据类别,计算出的函数值为正的函数值为负,从而实现分类算法
逻辑回归
什么是逻辑回归?
逻辑回归是一种二元分类算法,通过寻找两个类别之间的分割超平面,使得一个类别的数据位于平面的一侧,另一类别的数据位于平面的另一侧来实现。数据的分类——首先对数据进行线性回归算法,使得一类的数据为正,另一类的数据为负,然后使用sigmoid函数将线性回归函数值转换为之间的值0 和1 之间的概率值,用概率值来反映样本属于哪个类别。损失函数给出的过程(公式)
思路:利用最大似然估计给出损失函数
步:
写出样本的联合概率密度函数来求解对数似然函数。直接使用对数似然函数作为Logistic的损失函数。注意: 损失函数是交叉熵损失函数softmax回归。
Softmax 和Logistic 回归有什么区别?
逻辑回归是一种二分类算法,寻找两个类别的线性分割平面。 Softmax回归是一种多分类算法,可以找到每个类别所遵循的线性回归模型。
三、KNN
1. KNN的原理/思想:
利用样本空间中相似样本集中在同一区域,并且相似样本具有相同的特征信息,即相似样本被认为具有相同的类别或相同的预测值y;
利用该特征,从训练数据中找到与当前待预测样本相似的K个样本,并用这K个样本生成预测值;
实际运用的是“近赤者赤,近墨者黑”的思想。
2. KNN的执行过程:
从训练数据中找出与当前待预测样本最相似的K个样本。这k 个样本称为邻近样本。
-1。如何确定k? -2。如何从训练数据中找到k个样本?/如果我们从训练数据中找到K 个最相似的样本怎么办? b.融合k个最相似的相邻样本的目标属性,得到当前待预测样本的预测值。
-3。如何整合目标属性?
3. KNN算法的问题:
-1。如何确定k?
k 是一个超参数。一般k值太大或者k值太小交叉验证都会出现问题?自己补充——2.如何从训练数据中找到k个样本?/如果我们从训练数据中找到K 个最相似的样本怎么办?
一个。最简单的方式:遍历所有训练数据,计算所有训练数据与当前待预测样本的相似度,将最相似的K个样本保存为邻近样本NOTE: 最简单的方式有问题吗?-3。如果训练数据的样本量特别大,例如:1000万个样本、1亿个样本,那么此时如何找到K个最多的样本呢?
注:大家应该都有点熟悉KD-TREE的构建过程;自行补充- 4.如何整合目标属性?
分类算法
默认方法:K个样本中,出现次数最多的类别为预测类别。加权方法:在计算类别数时,并不是考虑所有样本的权重都相同,而是样本越相似,权重系数就越大。那么对应的类别权重系数就会变大,最终预测的类别就是权重系数最大的类别回归算法。
默认方法:直接使用K个样本的目标属性的均值y作为待预测样本的预测值。加权方法:在计算类别数时,并不考虑所有样本的权重都相同,而是考虑越相似。样本权重系数越大,则直接将该权重系数作为目标属性y
4. KNN的优化方式:
a 的加权和。在大规模数据的情况下,KNN的预测过程以及为什么需要使用KD-TREE来构建算法---KD-TREEb。算法模型的融合过程中为什么要使用加权融合?
四、决策树
1. 决策树的构建过程
遍历所有特征的所有划分方法,选择一个最优的划分;那么这个最优划分就是让划分后的数据“更纯粹” b根据选择的最优划分,将数据集划分为多个子数据集c继续用同样的操作对每个子数据集进行数据划分,直到每个子数据集中只有一类样本数据或者树的深度达到给定的极限。结束构建过程。 d.将所有子数据相除,直到达到限制。
2. 决策树构建过程中的目的/方向:
将数据划分为不同的数据子集。划分时要保证:每次划分都会让数据变得“更纯粹”,也就是说,让一个子数据集尽可能只包含一类数据或者某一类数据出现在绝大多数样本中。
纯度的衡量标准
分类:
信息熵基尼系数错误率NOTE: 值越小,回归越好:
MAEMSENOTE: 值越小越好
3. 决策树的预测值如何产生?
分类
一个。根据决策树中非叶子节点上的特征属性的判断条件,确定样本x属于哪个叶子节点(样本x落在该叶子节点上) b根据样本x所在叶子节点中的所有训练数据中出现次数最多的类别,作为当前样本x的预测值进行回归
一个。根据决策树中非叶子节点上的特征属性的判断条件,确定样本x属于哪个叶子节点(样本x落在该叶子节点上) b根据样本x所在叶子节点中所有训练数据的目标属性y值的平均值作为样本x的预测值
4. 决策树算法的类别
ID3
分类决策树只能处理离散特征数据,构建多树,特征属性只能使用一次C4.5
分类决策树,可以处理离散和连续特征数据,构建多树,特征属性只能使用一次CART
分类回归决策树,可以处理离散和连续特征数据,构造二叉树,特征属性可以多次使用
5. 决策树的欠拟合和过拟合
欠拟合
使用增加树深度来解决过拟合,并使用集成算法Adaboost或GBDT来解决过拟合。
降低树的复杂度,即限制树的深度/规模---剪枝(请自行扩展整理),利用集成学习中的随机森林算法解决
五、集成算法
1. 为什么需要使用集成算法?
的主要原因就是单个模型存在一些问题,例如:效果差(欠拟合/模型拟合能力不足),模型过拟合(对训练数据的拟合能力太强/模型学习能力太强),为了为了使模型稳定并且得到更好的结果,采用了利用多模型融合的策略,该策略称为集成算法
2. 集成算法的类别
a。套袋
其思路是使用不同的数据集分别训练模型,然后直接融合多个不同模型的预测结果,生成预测值。生成数据集的方式:通过重采样和替换来生成不同的数据集;差异主要体现在两个方面:数据样本数量不同、数据样本不同。多个模型的融合方法:如果是分类,则采用多数投票;如果是回归,则采用均值法。效果/功能是因为使用了不同的数据集。为了训练模型,每个模型考虑的样本特征是不同的,因此有些模型可能学习了一些特殊特征(例如:噪声数据特征),但其他模型在训练时没有这些。数据,因此这些特征可能无法学习;那么在融合多个模型的过程中,这种相对稀有且特殊的特征信息在预测过程中就不会被过多考虑;所以可以使模型具有更高的鲁棒性,可以缓解模型的过拟合。经典算法随机森林
建设过程
采用放回重采样从m条原始数据中提取m条训练数据集,对提取的m条数据进行去重,得到实际用于训练的子数据集。使用提取的子数据集构建决策树模型。在决策树的构建过程中,在选择划分特征时,引入了随机特征划分策略:首先从原始特征中随机选择K个特征,然后从这K个特征中选择最优的划分。使用特征作为当前节点的划分;该策略可以减少模型的过拟合(因为此时选择的是局部最优划分)。利用以上两个操作,迭代构建N次,从而生成N个模型。这N个模型,即最终的随机森林模型使用构建的N个模型分别对预测样本进行预测,然后融合这N个预测值(分类:多数投票,回归:均值)b提升
其思想是采用模型迭代的方法,使得模型构建的每一步都使得模型最终的预测更加准确;也就是说,通过boosting,可以让模型的预测误差率越来越小;也就是说,每个模型构建都需要基于上一个模型的预测结果。效果/函数可以提高模型的拟合能力。主要功能是解决模型的欠拟合问题。经典算法Adaboost
想法
通过修改样本的权重系数,改变构建模型时每个样本预测失败导致的损失函数值,使得模型在构建模型时能够重点关注权重系数比较大的样本,即尽量不要让权重较大的样本预测失败,在模型融合时,给预测相对准确的基础模型赋予比较大的权重,相当于构建了一个可信度比较高的模型(权重反映了可信度) )具有准确预测的模型。过程
假设所有样本的初始权重一致,则根据样本和样本权重训练基础模型。在这个基础模型的构建过程中,对于样本权重较大的样本,在基础模型中,对于这些样本的预测是比较准确的,当当前基础模型训练完成后,当前基础模型在训练数据上的准确率集进行计算。基于该准确度,计算当前模型的可信度权重。准确率越高,当前基础模型的可信度权重就越大。这意味着模型的预测结果更加可靠。当前基模型训练完成后,计算每个训练样本数据的预测状态(预测失败或预测成功),然后根据预测状态修改样本权重。如果预测失败,则样本的权重增加,使得样本在构建下一个模型时具有更大的影响因子。如果预测成功,样本权重就会减少。当错误率或子模型数量达到一定限度时,模型训练和预测过程结束。
根据模型的训练过程,使用基础模型对输入数据进行预测,预测结果融合(加权和)GBDT
想法
通过修改标签y值,每次建立的模型误差足够小。当模型误差值最小时,对应的标签值就是最优值。所以在这个过程中,损失函数的梯度值作为下一步模型构建的新的y值标签构建过程。
训练基础模型并根据当前基础模型计算损失函数的梯度值,然后更新训练数据中的标签值,将梯度值作为标签值,并根据数据继续训练下一个模型使用标签值更新。当损失函数值或子模型数量达到一定限度时,模型训练和预测过程结束。
所有子模型的累加值就是最终的预测值XGBoost
与GBDT的区别
考虑模型的复杂性,防止模型过拟合。构建底层模型时,GBDT是串行构建的,而XGBoost是在选择特征划分时并行构建的。 gbdt底层模型只支持决策树,而xgboost支持决策树、线性回归等。模型c。堆叠
结构
使用原始数据训练第一层模型,然后使用第一层模型的预测值作为第二层模型的训练数据;这里的第一层模型相当于实现了数据特征提取的功能结合后续的深度学习能力来理解
3. 各中集成算法的区别
boosting 和bagging 有什么区别? b.随机森林和GBDT有什么区别? c. AdaBoost 和GBDT 有什么区别?
六、聚类算法
1. 什么叫做聚类算法? / 对于聚类算法的理解?
如果我们的训练数据中没有类别标签信息,而我们需要根据数据的特征将数据划分成不同的类别,那么就需要使用聚类算法
2. 经典的聚类算法
KMeans 算法
想法
通过迭代的方式,每次聚类中心的选择都是一个最小化样本数据与聚类中心点之间距离的过程构建过程。
根据当前聚类中心点信息随机初始化给定的K个聚类中心点,将所有样本数据划分为一个聚类;根据每个样本与每个聚类中心点的距离,选择距离最近的聚类,并认为当前样本属于该聚类中心点。聚类根据当前聚类划分方法更新聚类中心点;选择当前聚类中所有样本的平均中心点作为新的聚类中心点,继续迭代上述2、3两个步骤,直到迭代次数达到极限或者不再出现聚类中心。更改结束模型的构建;从而得到最终的聚类中心点坐标。预测流程
分别计算待预测样本与所有簇中心点的距离/相似度。待预测样本所属的簇被认为是距离最近或相似度最高的簇中心。伪代码
TODO: 自己添加时遇到哪些问题及解决办法?
对异常值敏感的解决方案
K中值聚类是一种对聚类中心个数K值敏感的解决方案
因为K是簇的数量,一般就是类别的数量。在实际工作中,一般可以确定这个类别数。因此,在实际工作中,一般采用直接给定的方法。可以使用一些不需要给出K 的方法。值聚类算法做了预计算,eg: BIRCH算法对初始聚类中心点坐标解比较敏感
一个。二分k意味着b。 kmeans++c。公里意味着||大规模数据处理解决方案
Mini Batch KMeansMini Batch KMeans 算法
与KMeans算法的区别
KMeans算法在更新集群时会使用所有样本,这在使用大规模数据时会给内存带来很大的压力。但是Mini Batch KMeans算法在更新聚类时,只需要使用部分样本数据进行更新,内存压力比较小,所以在比较大规模数据的聚类运算效果时:Mini Batch KMeans算法在训练效率上比KMeans算法更快,但在效果上却比KMeans算法稍差。
3. 扩展的聚类算法(了解)
层次聚类密度聚类谱聚类
七、SVM算法
1. SVM算法的构建原理/构建思想
SVM 是一种二类算法。算法的目的是尽可能将两类数据分开;即在两个类别中找到一个最优的数据划分平面,并且这个平面足以将两个类别的数据分开,即两个类别的数据与这个平面的距离足够远;那么我们把这个距离称为Interval,距离这个平面最近的样本点称为支持向量;所以SVM解决的是一个分割平面,最大化该分割平面的支持向量。
为什么要求最大分割面?
因为如果分割平面足够大,那么代表两个类别的数据特征就特别明显,也就意味着模型的判别能力足够强,也就是模型的鲁棒性足够好。
2. SVM的公式推导
从最初的最大区间优化函数到最终的SMO算法之前的优化函数结束,这个过程需要自己写,每个过程都能看懂(建议选择线性可分的过程) SVM算法)
3. SVM算法对于非线性可分数据的解决方案
对于数据本身线性可分,但训练数据中存在异常数据点导致数据线性不可分的情况,解决办法是:软区间
含义:在模型构建过程(寻找最优分割平面的过程)中,允许有部分样本被误分类。因为有些样本是允许误分类的,所以找到的分离平面会比不允许误分类的情况下的要大。对于数据本身非线性可分的情况,解为:核函数
含义:为了解决数据线性不可分的问题,一般采用的方法是将数据映射到高维空间,使数据线性可分。然而,将数据映射到高维空间后,在使用svm求解过程中,存在向量的内积计算。这种内积计算需要对高维空间中的向量进行非常大量的计算,因此不建议直接映射。因此,使用低维空间中的向量的运算来近似高维空间。中向量的内积,这种方法称为核函数
类别:
线性核函数
此时相当于没有进行非线性变换,相当于线性可分SVM算法的多项式核函数。
相当于先对数据做多项式展开,然后做线性可分SVM算法高斯核函数。
一般情况下,选择这种方法的最优效果相当于将数据映射到无限维空间,所以效果一般都不错
4. SMO算法过程(可选,了解)
5. SVR算法原理过程(可选,了解)
我们从SVC和SVC的区别来理解一下概念
在允许的误差范围内,找到最大的超平面,使得所有样本的预测值与实际值的差值小于给定的误差
6. 噪音/异常数据拦截的解决方案
解决思路:
了解正常数据的数据特征。对于待预测数据,如果待预测数据的数据特征不符合正常数据的特征,则认为是异常数据方法:
OneClassSVMisolationForest
八、二分类和多分类
1. 有哪些算法属于二分类、有哪些算法属于多分类
2 级
Logistic回归SVM算法多分类
Softmax 回归KNN 决策树
2. 对于原本是二分类的算法,如果应用到多分类的需求中
ovo
假设数据中有K个类别,将两个类别的数据组合成一个新的数据集,用新的数据集训练模型,总共可以得到K(K-1)/2个模型,最后这些模型进行融合。融合方法选择:多数投票(所有基础模型的预测结果中,出现次数最多的类别作为最终模型的预测结果)NOTE: 每个基础模型都是一个二分类模型ovr
假设数据中有K个类别,用其中一个类别作为正例(1),其他K-1个类别的数据作为负例(-1)。使用这样的子数据集来训练模型;通过改变正例类别,分别训练K个模型,最后融合这K个基础模型,得到最终的预测结果。对于每个基础模型,如果预测值大于0,则认为是正例;如果预测值小于0,则认为是负例;因此,当融合K个基础模型时,选择预测值最大的模型。将对应的正例作为最终的预测结果。注意:每个基本模型都是两类模型纠错码机制。
九、多标签算法(可选、了解)
1. 什么叫做多标签算法?
模型中,有多个目标属性y值需要同时预测
2. 多标签应用的解决方案
a。将多个标签转换为多个类别的算法认为每个标签相当于多个类别中的一个值;然后使用ovo构建模型b。 Chains:认为目标属性的y值之间存在依赖关系,因此在构建模型时,直接使用其他依赖的y值作为特征属性来预测当前的y值。 c.校准标签排名
十、贝叶斯算法
1. 理解朴素贝叶斯算法的原理
之所以叫简单:
假设样本的特征属性是独立的、互不相关的。样本的类别受特征属性值的影响。直接使用贝叶斯公式计算给定x时y的概率值;选择概率中的最大值作为最终的预测类别
2. 贝叶斯算法的训练过程
计算训练数据中每个类别的先验概率p(y=k)。计算每个类别中每个特征属性取值的概率,即给定类别时,x取值的条件概率:p(x=i|y=k)
3. 贝叶斯算法的预测过程
直接进行累加乘法类别的先验概率和属性的条件概率,选择累积结果最大的类别作为最终输出的预测类别
3>4. 朴素贝叶斯算法的类别高斯朴素贝叶斯 假定特征属性的取值是服从高斯分布的,所以该模型比较适合连续的特征属性模型在训练条件概率的时候:会对每个类别的每个特征属性都分别对应的均值和方差,得到该类别该特征属性所满足的高斯概率密度函数。伯努利朴素贝叶斯 假定特征属性的取值是稀疏的,也就是将有值的情况认为是属于1,没有值的情况认为是属于0的,所以认为特征属性是服从伯努利分布的,那在训练条件的时候,也就是计算的是伯努利的概率密度函数;该算法比较适合高度稀疏的特征矩阵多项式朴素贝叶斯 假定特征属性的取值是服从多项式分布的,所以该模型比较适合离散的特征属性模型在训练条件概率的时候:直接计算每个类别的每个特征属性的取值的样本数目占当前类别总样本数目的概率作为条件概率NOTE: 为了防止出现条件概率为0的情况,做一个平滑转换,一般为拉普拉斯变换十一、EM算法
1. 理解EM算法的过程
2. 理解EM算法的应用场景
如果在求解模型参数的同时,存在一些未知的隐变量也需要求解的,那么这个时候就比较合适使用EM算法思想来求解3. 理解GMM高斯混合聚类
十二、隐马尔科夫
1. 马尔科夫性质
在一个序列中,如果当前时刻的状态只和上一个时刻的状态有关,而和之前时刻(除了上一个时刻)的状态没有关系,那么认为这样的序列满足马尔科夫性质2. 隐马尔科夫
在一个观测序列中,值与值之间是存在关系的,并且这个关系是根据内部的某种状态来产生的,而这些未知的状态(隐状态)之间是满足马尔科夫性质的时候,我们就认为当前的序列的隐状态的求解是隐马尔科夫模型 HMM的三个主要元素 序列的初始状态概率向量π隐状态之间的状态转移概率矩阵A隐状态和观测值之间的转移概率矩阵B3. HMM的三个方面的问题
NOTE: 理解一下HMM算法到底可以干嘛 -->理解一下Viterbi算法 a. 观测序列的概率计算问题 前向算法后向算法b. 模型参数的求解问题 有监督 直接统计、大数定理无监督 EM算法c. 隐状态的预测问题 Viterbi算法十三、主题模型
1. 为什么需要主题模型?
因为如果数据中存在某种隐含的特征信息,eg:文本的主题信息,但是在其它的算法模型中,对于这个隐含的特征信息是不会考虑的,比如:在聚类算法中对文本数据做聚类,这个时候只会考虑单词角度的相似度,不会考虑文本内部主题内容上的相似度。2. 主题模型有什么作用?
提取原始数据中的隐含的特征信息,然后基于提取出来的特征信息再训练后续的模型,模型效果可能会更好,eg: 提取文本的主题内容,然后基于文本的主题内容信息来做一个聚类操作,那这个时候聚类考虑的就是文本与文本之间主题是否相似3. 主题模型的应用场景有哪些?
聚类前的数据预处理特征提取/特征降维推荐系统4. 常见的主题模型
LSANMFLDA十四、特征工程(重要)
特征使用方案
要实现业务需求目标需要哪些数据? 基于业务理解,尽可能多的找出对因变量影响的所有自变量可用性评估 获取难度覆盖率准确率特征获取方案
如何获取这些特征? 用户行为数据业务数据第三方数据如何存储? 本地磁盘数据库大数据平台数据清洗&特征处理
特征清洗 清洗异常样本数据 采样 数据不均衡 权重上采样下采样SMOTE算法样本权重 特征工程 单个特征 归一化、标准化、区间缩放法 离散化/二值化/区间化 哑编码/Dummy Coding 缺失值处理 数据变换 log指数多个特征 增维 多项式扩展核函数GBDT+LR降维 PCALDA特征选择 Filter 思路:自变量和因变量之间的关联相关系数卡方检验信息增益、互信息Wrapper 思路:通过目标函数(AUC/MSE)来决定是否加入一个变量 迭代:产生特征子集,评价 完全搜索 启发式搜索 随机搜索 GASAEmbedded 思路:学习器自身自动选择特征 正则化: L1--LassoL2--Ridge决策树 熵、信息增益衍生变量 对原始数据根据业务进行加工,生成的具有商业意义的变量特征监控
特征有效性分析 分析特征的重要性、权重特征监控END,本文到此结束,如果可以帮助到大家,还望关注本站哦!
【深度学习入门:基础概念与总结】相关文章:
2.米颠拜石
3.王羲之临池学书
8.郑板桥轶事十则
用户评论
想入门机器学习,这篇总结刚好能给我一些方向!
有6位网友表示赞同!
机器学习的定义和分类都写得很清晰易懂。
有8位网友表示赞同!
对基础概念的解释很到位,让我更理解了机器学习的含义。
有10位网友表示赞同!
算法介绍简单明了,入门非常友好。
有10位网友表示赞同!
总结得很全面,涵盖了机器学习的基本知识点。
有8位网友表示赞同!
作为初学者,这篇文章对我很有帮助!
有13位网友表示赞同!
学习这个东西从基础开始确实最重要!
有13位网友表示赞同!
感觉这篇总结能让我快速掌握机器学习的入门内容。
有14位网友表示赞同!
以后看更深入的资料也能理解比较好。
有17位网友表示赞同!
机器学习确实很神奇,希望能学到更多!
有20位网友表示赞同!
希望以后会有更详细的解读!
有17位网友表示赞同!
想了解更多关于应用方面的案例。
有20位网友表示赞同!
这篇文章给了我很多启发,让我对机器学习有了更深的兴趣。
有15位网友表示赞同!
很好的入门指南!
有9位网友表示赞同!
值得收藏和分享给感兴趣的人!
有11位网友表示赞同!
终于找到了一个通俗易懂的机器学习基础总结!
有15位网友表示赞同!
准备开始我的机器学习学习之旅!
有10位网友表示赞同!
学习新知识总是令人兴奋!
有6位网友表示赞同!
感觉自己离人工智能的世界越来越近了!
有19位网友表示赞同!
感谢作者分享这些宝贵的知识!
有12位网友表示赞同!