各类机器学习分类算法的优点与缺点分析
扫描二维码
随时随地手机看文章
(文章来源:不靠谱的猫)
机器学习中有许多分类算法。本文将介绍分类中使用的各种机器学习算法的优缺点,还将列出他们的应用范围。
SVM(支持向量机),SVM的优点:1.在高维中表现良好。在现实世界中有无限维度(不仅仅是2D和3D)。例如,图像数据、基因数据、医学数据等具有更高的维数,支持向量机在这方面是有用的。基本上,当特征/列的数量较多时,SVM表现良好。
2.类可分离时的最佳算法(当两个类的实例可以通过直线或非线性轻松分隔时)。为了描述可分离的类,让我们举个例子(这里以线性分离为例,通过绘制抛物线等,类也可以是非线性可分离的)。在第一个图中,您无法轻易分辨X是属于类1还是类2,但是在情况2中,您可以轻易判断出X属于类2。因此,在第二种情况下,类是线性可分离的。3. 离群值的影响较小。4. SVM适用于极端情况下的二元分类。
SVM的缺点:1. 慢:对于较大的机器学习数据集,需要大量时间来处理。2. 重叠类的性能不佳:重叠类的情况下效果不佳。3. 选择适当的超参数很重要:这将允许足够的泛化性能。4. 选择适当的核函数可能比较麻烦。SVM的应用范围:Bag of words应用程序(许多特征和列),语音识别数据,图像分类(非线性数据),医学分析(非线性数据),文本分类(许多特征)。
朴素贝叶斯,朴素贝叶斯的优点:1.实时预测:速度非常快,可以实时使用。2. 可通过大型数据集进行扩展。3. 对无关特征不敏感。4. 在朴素贝叶斯中可以有效地进行多类预测。5. 具有高维数据的良好性能(特征数量很大)。
朴素贝叶斯的缺点:1.特征的独立性不成立:朴素贝叶斯的基本假设是每个特征对结果做出独立且平等的贡献。但是,大多数情况下不满足此条件。2. 糟糕的估算器:不要太认真看待预测的概率输出。3. 训练数据应该很好地代表总体:如果没有一起出现类别标签和某个属性值(例如,class =“ No”,shape =“ Overcast”),则后验概率为零。因此,如果训练数据不能代表总体,那么朴素贝叶斯将无法很好地工作。
朴素贝叶斯的应用范围:朴素贝叶斯可用于文本分类(可以预测多个类别,并且不介意处理不相关的特征)、垃圾邮件过滤(识别垃圾邮件)、情感分析(在社交媒体分析中识别正面和负面情绪),推荐系统(用户下一步将购买什么)。
逻辑回归,逻辑回归的优点:1.易于实现2. 有效3. 不需要缩放特征:不需要缩放输入特征(也可以使用缩放特征,但是不需要缩放)。3. 不需要调整超参数。
逻辑回归的缺点:1.非线性数据(例如图像数据)性能不佳。2. 具有不相关和高度相关的特征的性能较差(删除相似或相关的特征和不相关的特征)。3. 不是很强大的算法,很容易被其他算法超越。4. 高度依赖正确的数据表示。所有重要的变量/特性都应该被识别,这样才能很好地工作。
逻辑回归的应用范围:最好是任何二元分类问题(它也可以执行多类分类,但最好是二元的)。如果您的输出类有两个结果,则可以使用它,例如癌症检测问题,客户借贷时是否违约,客户是否流失,电子邮件是否为垃圾邮件等。