python在机器学习中的应用
扫描二维码
随时随地手机看文章
随着大数据的兴起,Python 和机器学习迅速成为时代的宠儿。本书在内容编排上避免了枯燥的理论知识讲解,依循“理论简述——实际数据集——Python 程序实现算法”分析数据的思路,根据实际数据集的分析目的,采用合适的主流机器学习算法来解决问题。全书共12章,其中第1 ~ 4 章介绍了机器学习的基础知识;第5 ~ 12 章讨论了在面对不同的数据时,如何采用一些主流的算法来解决问题,主要包括回归分析、关联规则、无监督学习、文本LDA 模型、决策树和集成学习、朴素贝叶斯和K 近邻分类、支持向量机和神经网络,以及深度学习入门等内容。针对每个算法,都给出Python 代码实现算法建模的过程,并结合可视化技术,帮助读者更好地理解算法和分析结果。
什么是机器学习呢?说白了就是让机器代替人工从数据中发掘我们所需要的信息,如果对于海量的数据来说,对于人工来做的话将花费大量的人力物力,所以将这项任务交给计算机来做,人们来做更加高级的任务。 那么怎样能够让机器进行学习呢?首先对于人来说,比如让人的肉眼去识别两种植物的图片,如果要求人的识别精度很高的话,那么就需要人类在识别之前观察大量的两种植物图片,来进行积累经验,以至于之后人们再次见到类似图片时,能够精确的分析出图片的内容。这种学习方式对于人类来说比较容易,因为人类有大脑参与可以进行记忆分析,那么对于计算机来说,那么怎么去记住这么多的数据,然后去识别新的数据呢?无非就是建立自变量与因变量之间的某种关系来达到预测学习的作用,这里的自变量就是我们数据的特征,因变量就是数据对应的标签,这就会用到很多常见的机器学习算法,例如随机森林,SVM、支持向量机等算法。
现在我们的生活中有很多机器学习算法的应用,比如说当我们逛淘宝时,淘宝会不断地向我们进行推荐我们之前看过的物品,这是基于关系规则的商品推荐,还有就是最近很火的图像识别,它是利用了深度学习方面的技术。我们在不同的场景下,可以使用不同的算法来实现我们的需求。
有人问?有没有那种非常无敌的算法,其实这个问题很难回答,每种算法有自己使用的领域,针对不用的使用场景需要用到不同的东西,有的算法可能精度非常高,但是可能它的底层的计算方法相当复杂,可能模型运行的时间会相当高,有的算法虽然精度差一些,但是它的速度方面可能略强于别的算法,所以没有什么强不强的,就是看自己的需求有针对性地使用合理地算法。
Python应用的领域包括如下场景。
(1)Web应用开发
Python经常被用于Web开发。例如,通过mod_wsgi模块,Apache可以运行用Python编写的Web程序。Python定义了WSGI标准应用接口来协调HTTP服务器与基于Python的Web程序之间的通信。一些Web框架,如Django、TurboGears、web2py、Zope等,可以让程序员轻松地开发和管理复杂的Web程序。
(2)操作系统管理、服务器运维的自动化脚本
在很多操作系统里,Python是标准的系统组件。大多数Linux发行版以及NetBSD、OpenBSD和Mac OS X都集成了Python,可以在终端下直接运行Python。有一些Linux发行版的安装器使用Python语言编写,如Ubuntu的Ubiquity安装器、Red Hat Linux和Fedora的Anaconda安装器。Gentoo Linux使用Python来编写它的Portage(包管理系统)。Python标准库包含了多个调用操作系统功能的库。通过pywin32这个第三方软件包,Python能够访问Windows的COM服务及其他WindowsAPI。使用IronPython,Python能够直接调用.Net Framework。一般说来,Python编写的系统管理脚本在可读性、性能、代码重用度、扩展性几方面都优于普通的shell脚本。
(3)科学计算
NumPy、SciPy、Matplotlib可以让Python程序员编写科学计算程序。
(4)桌面软件
PyQt、PySide、wxPython、PyGTK是Python快速开发桌面应用程序的利器。
(5)服务器软件(网络软件)
Python对于各种网络协议的支持都很完善,所以经常被用于编写服务器软件、网络爬虫。第三方库Twisted支持异步网络编程和多数标准的网络协议(包含客户端和服务器),并且提供了多种工具,被广泛用于编写高性能的服务器软件。
(6)游戏
很多游戏使用C++编写图形显示等高性能模块,而使用Python或者Lua编写游戏的逻辑、服务器。相较于Python,Lua的功能更简单,体积更小;而Python则支持更多的特性和数据类型。
随着数据科学(Data Science)技术的兴起,人工智能(ArtificialIntelligence)、机器学习(Machine Learning) 成为近几年来计算机科学界十分热门的研究领域,如今在实体和在线的学习机器学习的资源有很多,本文整理了一些好用学习资源希望帮助初学者能更容易使用 Python 入门机器学习的领域中,从零开始学习机器学习。若是对于数据科学不熟悉的读者可以先参考适用于初学者的资料科学影片 ,让自己对于数据科学有初步的认识。
在数据科学和机器学习领域最重要的两大程序语言就是Python 和R,Python 简洁易学、应用范围广(不限于数据分析)且学习曲线平缓,适合作为第一个入门的程序语言,透过pandas、SciPy/NumPy、sckikit-learn、matplotlib和statsmodels 可以进行数据分析的工作,适合工程任务和需要和网络应用程序整合的项目。至于R 由于是统计学家开发的程序语言,则是擅长于统计分析、图表绘制,常用于学术研究领域,建议也要有一定程度的掌握。一般情况下Python 和R 并非互斥,而是互补,许多数据工程师、科学家往往是在Python 和R 两个语言中转换,小量模型验证、统计分析和图表绘制使用R,当要撰写算法和数据库、网络服务互动等情况时在移转到Python。为了降低学习成本。
此外Python本身是一种通用语言,除了数据科学外也可以广泛使用在 网络开发、网站建置、游戏开发、网络爬虫等领域,当你需要整合系统产品服务时,可以担任一站式的开发语言,更重要的是 Python 也可以当成 胶水语言非常轻易和 C/C++ 等效能较佳的语言整合。简而言之,Python是一种简洁易学但功能强大,值得投资的程序语言,所以我们这边先使用Python 进行介绍。