2015/7/13 下午12:06:19 星期一
当前位置: 主页 > 平步青云 >

Pick一下?Pyth365体育网投: on机器学习实用技巧
时间:2019-05-31 20:25

摘要:雷锋网按:本文为雷锋字幕组编译的技术博客,原标题SomeEssentialHacksandTricks

雷锋网按:本文为雷锋字幕组编译的技术博客,原标题Some Essential Hacks and Tricks for Machine Learning with Python,作者为Tirthajyoti Sarkar。

翻译 | 赵朋飞  Noodlesslee    整理 |  凡江

我们Pick了一些用Python进行机器学习实践的基本技巧。

我是一名计算机科学与技术专业的学生。我怎么才能入门机器学习/深度学习/人工智能

入门机器学习从来不是一件简单的事。除了成熟的MOOC,网络上还有海量的免费资源,这里列举了一些曾经对我有帮助的资源:

对于机器学习/人工智能,Python是一款优秀的语言吗?

 除非你是一个研究复杂算法的纯理论证明的博士研究员,否则你将主要使用现有的机器学习算法,并将它们应用于解决新问题。这就需要你懂得如何编程。

关于“最优秀的数据科学语言”有很多争论。当争论激烈的时候,停下来读读这篇有见地的文章,了解你的想法,看看你的选择。或者,看看 KDnuggets 的文章。目前,大家普遍认为,从开发到部署及维护,Python可以帮助开发人员更有效率。与 Java、C 和 C++ 相比,Python 的语法更简单,更高级。 它拥有充满活力的社区,开源文化,数以百计高质量的机器学习程序库,以及来自行业巨头的鼎力支持(例如:谷歌,Dropbox,Airbnb 等)。这篇文章会关注PythonIt应用于机器学习上的相关基本技巧。

需要了解及掌握的基础程序库

为使机器学习实践效率更高,你需要掌握一些 Python 核心库。这些库简单介绍如下。

Numpy

Numerical Python 的缩写,NumPy 是采用 Python 进行科学计算和数据分析所必须的基本程序库。几乎所有的高级工具都是基于 Numpy 构建的,例如 Pandas 和 scikit-learn。 TensorFlow 使用 Numpy数组作为基础构件模块,基于此,为深度学习任务构建了 Tensor 对象和 graphflow 。很多 Numpy 操作都是用 C 实现的,这使它运行更快。对数据科学和现代机器学习任务来说,这是一个宝贵的优势。

Pick一下?Python机器学习实用技巧

Pandas

这是 Python 科学计算领域进行通用数据分析方面最流行的库。Pandas 基于 Numpy 数组构建,因此保留了计算速度快的特性,并且提供了很多数据工程领域的功能,包括:

Pick一下?Python机器学习实用技巧

Matplotlib 与 Seaborn

数据可视化和善于用数据表达是每一位数据科学家应有的基本技能,这些技能可以有效传达从分析中获得的信息。这对于掌握并精通机器学习是非常重要的,在你的机器学习工作流(ML Pipeline)中也是如此。在决定应用特定的ML算法之前,您需要对数据集进行探索性分析。

Matplotlib 是应用最广泛的2维可视化库,它拥有令人眼花缭乱的数组命令和接口,能够从数据生成高质量的图表。这里有一个非常详细和内容丰富的文章,可以帮你入门 Matplotlib 。

Pick一下?Python机器学习实用技巧

Seaborn 是另一个非常棒的专注于统计绘图的可视化库。机器学习从业者是值得学习的。在 Matplotlib 基础之上,Seaborn 提供 API (具备绘图样式和颜色默认的灵活选择),针对常见的统计绘图类型它定义简单的高级函数,针对 Pandas 库可以无缝对接。这里有一份适合初学者的很棒的 Seaborn 教程。

Pick一下?Python机器学习实用技巧

Seaborn plots的例子

Scikit-learn

Scikit-learn 是必备的最重要的常见 Python 的机器学习包。它支持多种分类、回归和聚类算法,包括支持向量机、随机森林、梯度提升、k-means 和 DBSCAN 。Scikit-learn 可与 NumPy 库 SciPy 库交互操作。它通过一致界面提供一系列的监督和非监督算法。Scikit-learn 库致力于实现一定程度的健壮性和支持生产实践中的使用。这意味着要深入关注例如易于使用,代码质量,协作,文档和性能等问题。可以看看这篇关于Scikit-learn使用的机器学习词汇的简单介绍。这里是另一篇文章,演示了使用 Scikit-learn 的简单机器学习管道方法。这里有另一篇使用Scikit-learn演示简单的机器学习方法的文章。

Scikit-learn背后的闪光点