阿里云
发表主题 回复主题
  • 1360阅读
  • 0回复

[干货分享]机器学习 从入门到精通的学习方法

级别: 论坛版主
发帖
1149
云币
3819
翻译:青蛙跳 Q'Uv5p"X  
7mn&w$MS4:  
C0khG9,BL  
原文:machinelearningmastery.com/machine-learning-mastery-method/ J3/e;5w2Z  
ks,d4b=->  
Hq&MePl[  
JUJrtK S  
`=kiqF2P}  
5个步骤 让你入门机器学习,直至精通机器学习 <e wcWr  
Ef3=" }AI;  
Fh&USn"  
我将介绍5个“机器学习”的步骤,这五个步骤是非常规的。 T hVq5  
传统的机器学习方法是下而上的。从理论和数学开始,然后学习算法执行,再教你如何解决实际问题(实践)。 V0*MY{x#S  
!Q}Bz*Y  
&g=6K&a$a  
入门者如果以传统的“机器学习”步骤学习,会发现自己总是和真正的“机器学习”工作者存在差距,这也是以往学习方法中存在的缺点。 8|u8J0^  
本文所介绍的步骤与传统学习方法不同,本文推荐初学者从结果着手。 0d89>UB-8q  
它所满足的,正是企业所想要的:如何交付结果 B7S)L#l_\  
一系列预测或模型的结果,能够可靠地预测。 -I z,vd  
这是一种自上而下结果优先的方法。 ] pv!Ll  
从满足市场要求出发,最短的路径是真正成为这个行业的从业者。 9)n3f^,Oj*  
我们可以通过以下5个步骤来概括这种方法:
  • 第一步:调整心态  (信念!)。
  • 步骤2:选择一个过程(如何获得结果)。
  • 第3步:选择一个工具(实施)。
  • 第四步:数据集实操(投入实际工作)。
  • 第5步:建立一个收藏夹(展示你的技能)。
!, sQB_09C  
就是这么简单 ?5EMDawt  
这是我所有电子书培训背后所展示出的哲学思考。 J:IAs:e`  
这也是我创建这个网站的原因。如果我知道更简便的方法,我可以直接在这与他人分享。 g>a% gVly  
下面是一张漫画,简单地展示了这个过程,其中第1步(思维方式)和第2步(展示你的作品)为简洁起见省略。 6aWNLJ@  
@lqI,Ce5  
zQB1C  
学习机器学习的一种更好的方法是从端到端的工作机器学习问题开始。 +xU=7chA  
让我们仔细看一下每一步。 Gsy90  
)Q<u0AxAn  
第0步:标志 sqj8I"<`  
M?DXCsZ,)s  
}_Y\6fcd  
在开始之前,您必须知道机器学习的标志。 bkm: #K  
我经常只是假设这一点,但除非你知道一些真实的基础知识,否则你不能继续下去。 Smd83W&  
例如:应该知道一些“机器学习”实例 应该知道“机器学习”是解决一些复杂问题的唯一方法。 应该知道,预测建模是应用机器学习中最有用的部分。 你应该知道机器学习在人工智能和数据科学方面的实际应用 应该知道主要几种“机器学习”算法类型。 你应该知道一些基本的“机器学习”术语 v5FfxDvw  
xj5MKX{CJT  
第一步:心态  ~!e(e2  
N0YJ'.=8,  
)X6I #q8  
机器学习不仅仅是为了成为该领域的专业人员、为了成才或是学位。 w-Q=oEt  
7!e kINQ  
你必须相信 1NAtg*`  
0{stIgB$  
?zYR;r2'b)  
你可以学习这些知识,并将其用于解决实际问题。
  • 你不需要编写代码。
  • 你不需要知道或擅长数学。
  • 你不需要更高的学位。
  • 你不需要大数据。
  • 你不需要使用超级计算机。
  • 你不需要很多时间。
#*  8^ar<  
C`aUitL}  
cdg &)  
vtq47i  
有些人总有理借口,始终不开始学习。 C-(O*hK  
真的,只有一件事可以阻止你入门,并善于机器学习——就是你自己!
  • 也许你找不到动机。
  • 也许你认为你必须一切从头开始。
  • 也许你一直在挑选前沿的问题而不是初学者的问题。
  • 也许你没有一个系统的过程来实现结果。
  • 也许你没有使用好的工具和库。
LEAU3doK;  
清除阻止你入门的限制性信念。 C1-Jj_XQ.  
这篇文章可能有帮助 :ZXaJ!  
有很多速度颠簸,你可以打。 HZ89x|H k_  
识别他们,解决他们,并继续前进。 P_E xh]P  
raZ0B,;eFu  
为什么要学习机器 wNl "y  
eM^Y  
Jx8DVjy  
一旦你知道你可以做机器学习,理解为什么。
  • 也许你有兴趣学习更多关于机器学习算法的知识。
  • 也许你有兴趣创造预言。
  • 也许你有兴趣解决复杂的问题。
  • 也许你有兴趣创造更聪明的软件。
  • 也许你甚至有兴趣成为一名数据科学家。
$o*p#LU  
仔细想想这个话题,试着找出你的“ 为什么 ”。 )u307Lg  
这篇文章可能会让你有更深入的认识: 92^Dn`g  
一旦知道了“ 为什么 ”,就如同给自己打了一剂强心剂。 zzX9Q:  
你对哪一组机器学习从业者有最大的亲和力?
  • 也许你是一个有普遍兴趣的商业人士。
  • 也许你是一个交付项目的经理。
  • 也许你是一个“机器学习”的学生。
  • 也许你是机器学习研究员。
  • 也许你是一个有问题的研究人员。
  • 也许你想要实现算法
  • 也许你需要一次性的预测。
  • 也许你需要一个可以部署的模型。
  • 也许你是一个数据科学家。
  • 也许你是一个数据分析师。
:Lq=)'d;6  
每个人群都有不同的兴趣,从不同的方向走向机器学习领域。 (U*Zz+ R   
当然,并不是所有的书籍和材料都适合你,你需要找到你的领域,然后找到适合你的材料。 ^C{?LH/2  
这篇文章可能有帮助: 6/|"y  
Kxsj_^&|i  
第2步:选择一个过程 wtfM }MW\  
^K!R4Y4t  
O9:J ^g  
你想在问题后得到高于平均水平的结果吗? t=dZM}wj_\  
你需要遵循一个系统化的过程。
  • 一个与你水平相对应的实例。
  • 你不需要依靠记忆或直觉。
  • 它引导你完成一个项目的端到端。
  • 你知道下一步该做什么。
  • 它可以根据您的特定问题类型和工具进行量身定制。
<##aD3)  
一个系统的过程就是过山车一方面是好的还是坏的结果,一方面是高于平均水平,另一方面是永远改善的结果。 X+//$J  
我推荐的流程模板如下所示:
  • 第1步:定义问题(列出问题)。
  • 第2步:准备数据。
  • 第3步:检查算法。
  • 第4步:改善结果。
  • 第5步:得出结果。
Cx8  H  
下面这幅图,总结了上方的流程: a0cW=0l=  
L%f$ &  
kk/vgte-)e  
通过一个系统化、可重复的流程,可以得出一个一致的结果。 C] |m|`  
-V}ZbXJD  
您可以在这篇文章中了解更多关于流程的信息 jHc/ EZB  
你并不一定要使用这个流程,但是你需要系统化的流程来处理预测建模问题。 6X$iTJ[\x  
13I~   
第3步:选择一个工具 &sS]h|2Z5  
s9BdmD^|#  
,+RoJwi m  
选择一个可以用来提供机器学习结果的最佳工具。 :']O4v#^  
将您的过程映射到工具上,并学习如何最有效地使用它。 )auuk<  
我推荐的工具有三种:
  • Weka机器学习工作台(适合初学者)。Weka提供了一个GUI界面,不需要代码。我用它来快速地解决一次性建模问题。 Weka机器学习迷你课程
Python生态系统(中级)。您可以在开发中使用相同的代码和模型,并且足够可靠,可以在操作中运行。 R平台(高级)。R是为统计计算而设计的,虽然语言比较深奥,而且一些软件包记录不完善,但它提供了大多数方法以及最先进的技术。 r A9Rz^;xa  
我也有专业领域的建议:
  • Keras深度学习。它使用Python,意味着您可以利用整个Python生态系统,节省大量时间。界面非常干净,同时也支持Theano和Keras,后端的功能非常强大。 深度学习迷你课程
XGBoost渐变提升。这是该技术最快的实现。它还支持R和Python,使您可以在项目中利用任一平台。 `O}bPwa{>  
学习如何使用选择的工具,研究它,精通它。 K#plSD^f=  
8j!(*'J.  
什么是编程语言? axd9b,  
#>qA&*+{n  
7:&a,nU  
编程语言并不重要。 o`[X _  
即使你使用的工具并不重要。 zy[|4Q(?  
通过问题学习的技能将轻松地从平台转移到平台。 c#(&\g2H  
不过,下面是机器学习中各种语言受欢迎程度的调查结果: eR5+1b  
Vq#_/23=$y  
第四步:数据集实操 .(zZTyZr  
.@]M'S^1  
?C9>bKo*2H  
虽然有了系统化流程和相关工具,仍需要多加练习,方能生巧。 .ZOyZnr Z  
在标准机器学习数据集上的实践。
  • 使用真实的数据集,从实际问题领域收集(而不是人为虚构的)。
  • 使用适合的内存或Excel电子表格的小型数据集。
  • 使用易于理解的数据集,以便了解期望的结果类型。
G3t 4$3|  
练习不同类型的数据集,练习一些让你不喜欢的问题,因为你将不得不提高技术来获得解决方案。在数据问题中找出不同的特征,例如:
  • 不同类型的监督学习,如分类和回归。
  • 从数十,数百,数千和数百万个实例的不同大小的数据集。
  • 不到十个,几十个,几百个和几千个属性的不同数量的属性。
  • 来自实数,整数,分类,序数和混合的不同属性类型。
  • 不同的领域,迫使你迅速理解和了解一个你以前没有解决过的新问题。
FI(M 1iJ  
WjMP]ND#c  
使用UCI机器学习库 AkR ZUj\  
u+uu?.bM  
%uhhQ<zs%  
这些是最常用和最好理解的数据集,也是最好的开始。 ,<?M/'4}G  
在这篇文章中了解更多: BXo9s~5Q  
Z'z~40Bda  
使用机器学习比赛,如Kaggle 5Ai$1'*p  
q CB9z  
) BLoj:gYn  
这些数据集通常较大,需要更多的准备才能建模。 uu582%tiG  
有关您可以练习的最受欢迎的数据集列表,请参阅以下文章: {:9P4<%H  
XG}pp`{o  
对你自己的设计问题的实践 A'X, zw^}  
QabYkL5@  
-d6*M*{|  
收集有关您的重要机器学习问题的数据。 xF3H\`{4x  
你会发现你所设计的问题和解决方案更有价值。 ^@..\X9  
欲了解更多信息,请查看帖子: ' ! ls"qo  
>#\&%0OZw  
第五步:建立一个收藏夹 &vp0zYd+v  
.U !;fJ9  
v{2 Vg  
把自己完成的项目内容,放入一个收藏夹,把它们好好利用起来(有点像高中的错题集)。 lCyp&b#(L  
在您处理数据集并获得更好的效果时,请汇总您的发现、学习经验到自己的收藏夹。
  • 可以上传你的代码,并在自述文件中总结。
  • 可以你在博客文章中写下你的结果。
  • 可以做一个幻灯片。
  • 可以在YouTube上创建一个小视频。
&c!=< <5M  
它们每一个都代表了您不断增长的经验之一。 XP-4=0zd  
就像一个画家,你可以建立一个完整的收藏夹,来展示你在机器学习的成果递送技术。 bz? *#S  
您可以在该文章中了解更多关于这种方法的信息: 4x:Odt5  
当你觉得自己的收藏夹已经硕果累累的时候,你甚至可以选择利用它来承担更多的工作责任,或者成为一个新的机器学习的重点角色。 {XNu4d9w(  
欲了解更多信息,请看这篇文章: ]jzINaMav  
6gfdXVN5  
技巧和窍门 ?iBHJ{  
G{ $Zg  
O({-lI  
以下是您在使用此过程时可能会考虑的一些实用技巧和窍门。
  • 从一个简单的过程开始(像上面)和一个简单的工具(像Weka),然后提升难度,在这个过程中,你的自信心会得到提高。
  • 从最简单和最常用的数据集(鸢尾花皮马糖尿病)开始。
  • 每次应用一个流程时,都要寻找改进方法和使用方法。
  • 如果你发现新的方法,找出把它们整合到你的收藏中。
  • 学习算法,再多不多,以帮助您获得更好的结果与您的过程。
  • 从专家身上学习,看看哪些东西可以应用到自己的项目上。
  • 像研究预测建模问题一样研究你的工具,并充分利用它。
  • 解决越来越难的问题,因为在解决问题的过程中,你会从中学到很多东西。
  • 在论坛和问答网站上参与社区,提出问题和回答问题。
Yg#)@L  
7M1*SC  
概要 oB$D&  
$*H>n!&  
E 2DTE  
在这篇文章中,您看到了简单的5个步骤,您可以使用它学习“机器学习”并取得学习进展。 !2N#H~{  
虽然看上去很简单,但这种方法却需要付出艰辛的努力,最终将受益无穷。 Sk$ XC  
我的许多学生都是通过这个步骤来学习的,而且还是机器学习的工程师和数据科学家。 L$x/T3@  
如果您对这个过程和相关想法有更深入的了解,请参阅以下文章:
发表主题 回复主题
« 返回列表上一主题下一主题

限100 字节
如果您提交过一次失败了,可以用”恢复数据”来恢复帖子内容
 
验证问题: 阿里云官网域名是什么? 正确答案:www.aliyun.com
上一个 下一个