机器学习的初学者必看指南
扫描二维码
随时随地手机看文章
引言
Google的自驾车和机器人得到了很多新闻,但公司的真正未来是机器学习,这种技术使计算机变得更智能,更个性化。-Eric Schmidt (Google Chairman)
我们可能生活在人类历史上最具影响力的时期——计算从大型主机到PC移动到云计算的时期。 但是使这段时期有意义的不是发生了什么,而是在未来几年里我们的方式。
这个时期令像我这样的一个人兴奋的就是,随着计算机的推动,工具和技术的民主化。 今天,作为数据科学家,我可以每小时为几个玩偶构建具有复杂算法的数据处理机。 但到达这里并不容易,我已经度过了许多黑暗的日日夜夜。
谁可以从本指南中获益最多
我今天发布的可能是我创造的最有价值的指南。
创建本指南背后的理念是简化全球有抱负的数据科学家和机器学习爱好者的旅程。 本指南能够使你在研究机器学习问题的过程中获取经验。 我提供了关于各种机器学习算法以及R&Python代码的高级理解以及运行它们,这些应该足以使你得心顺手。
我故意跳过了这些技术背后的统计数据,因为你不需要在开始时就了解它们。 所以,如果你正在寻找对这些算法的统计学理解,你应该看看别的文章。 但是,如果你正在寻找并开始构建机器学习项目,那么这篇文章给你带来极大好处。
3类机器学习算法(广义上)
监督学习
工作原理:该算法由一组目标/结果变量(或因变量)组成,该变量将根据给定的一组预测变量(独立变量)进行预测。 使用这些变量集,我们生成一个将输入映射到所需输出的函数。 训练过程继续进行执行,直到模型达到培训数据所需的准确度水平。 监督学习的例子:回归,决策树,随机森林,KNN,逻辑回归等
无监督学习
如何工作:在这个算法中,我们没有任何目标或结果变量来预测/估计。 用于不同群体的群体聚类和用于不同群体的客户进行特定干预。 无监督学习的例子:Apriori算法,K-means。
加强学习:
工作原理:使用这种算法,机器受到学习和训练,作出具体决定。 它以这种方式工作:机器暴露在一个环境中,它连续不断地使用试错。 该机器从过去的经验中学习,并尝试捕获最好的知识,以做出准确的业务决策。 加强学习示例:马尔可夫决策过程
以下是常用机器学习算法的列表。 这些算法几乎可以应用于任何数据问题:
线性回归
逻辑回归
决策树
SVM
朴素贝叶斯
KNN
K-Means
随机森林
降维算法
Gradient Boost&Adaboost
它用于基于连续变量来估计实际价值(房屋成本,电话数量,总销售额等)。在这里,我们通过拟合最佳线来建立独立变量和因变量之间的关系。这个最佳拟合线被称为回归线,由线性方程Y = a * X + b表示。
理解线性回归的最好方法是回想童年的经历。比如,你要求五年级的孩子通过体重来从小到大排序班里的学生,而事先不告诉学生们的体重!你认为孩子会做什么?他/她很可能在身高和体格上分析人物的体重,并使用这些可视参数的组合进行排列。这是现实生活中的线性回归!孩子实际上已经弄清楚,身高和体格将有一个关系与体重相关联,看起来就像上面的等式。
在这个方程式中:
Y-因变量
a - 斜率
X - 自变量
b - 截距
这些系数a和b是基于最小化数据点和回归线之间的距离的平方差之和导出的。
看下面的例子。这里我们确定了线性方程y = 0.2811x + 13.9的最佳拟合线。现在使用这个方程,我们可以找到一个人(身高已知)的体重。
线性回归主要有两种类型:简单线性回归和多元线性回归。 简单线性回归的特征在于一个自变量。 而且,多元线性回归(顾名思义)的特征是多个(多于1个)自变量。 在找到最佳拟合线的同时,可以拟合多项式或曲线回归线,这些被称为多项式或曲线回归。