《alphgo》AlphaGo是通过什么训练的,阿尔法狗

导读: 如何看“AlphaGo”新版本问世? 英语词汇:AlphaGo这个名字是怎么来的 AlphaGo为什么这么厉害 alphago 是人工智能还是机械智能

关于alphgo的看点,同时还对alphago 知乎、AlphaGo对战也有不同的看法,希望本文能为您找到想要的体育资讯。

如何看“AlphaGo”新版本问世?

“AlphaGo”新版本问世可以说是一种人工智能对人类的压迫,让人类感叹自己在很多方面的确比不上人工智能。不论是运算能力还是逻辑推理能力,人工智能都要远远超过人类,而且它们的学习能力也是相当可怕。只要它们掌握了某项脑力竞技运动的规则,就可以无往不胜。

AlphaGo能否替代人类进行围棋培训

就目前来看,人类围棋教师的角色是不会被人工智能所轻易替代的。

诚然,人类棋手在面对AlphaGo时,每招每式都显得颇为掣肘,仿佛被电脑摸清了命脉,看透了心思。你的每一个定式都好似有破解之法。那我们是不是就不在需要学习定式,直接向人工智能学习招法了呢?不是的,人类所发明的各种定式,棋形,各个变化定型,本身就是基于局部计算一步一步推敲出来的。

而学定式定型的本身就是一种训练,是对棋理的了解与掌握。而AlphaGo的每招每式,都是基于全盘的计算所下出来的招法,它的计算量是人类所无法达到的。也正是因此,它无法被人类完整的模拟下来。

或许一些职业棋手或者业余界高水平的棋手可以模仿AlphaGo的手段取得成效。但这些招法有很多却不适合初学围棋和低段位的棋手使用,效果也往往适得其反。这是因为水平较低的棋手的计算差距太大,而使用招法的时机也往往把握不住。而这,也正是AlphaGo无法直接教导水平较低的棋手的直接原因。

人类老师则不同,哪怕人类老师所教所授不是最专业,最厉害的手段,却往往可以根据学棋的棋手水平的高低选择适合他的下法教给他,一些过于困难的计算则选择忽略。人类老师所教的定式可能存在争议,却可以让初学者迅速的适应下一整盘棋的招法,而不是看起来哪都可以下但就是不知道下在哪里。

人类老师更有电脑所无法取代的人格魅力以及与学员的沟通能力,可以根据学生的反应,状态制定不同的教学方式。这些都是电脑所无法完成的。就好像天底下的数学公式,物理定律网络上都有,你却还是需要去学校听老师教课。直到你有能力自己研究学习时,比如读到研究生博士生时,你才有能力只查著作自行发挥。AlphaGo就好像这些公式定律,总需要有人来翻译讲解。

我们可以从AlphaGo那里学来越来越多的招法,打开我们的思路,但围棋培训却还需要我们围棋老师来共同努力,培养出一批又一批实力强悍的年轻棋手来!

英语词汇:AlphaGo这个名字是怎么来的

alpha 是希腊字母阿尔法α,第一的意思。go 围棋的意思。

AlphaGo为什么这么厉害

AlphaGo为什么这么厉害

AlphaGo这个系统主要由几个部分组成:

走棋网络(Policy Network),给定当前局面,预测/采样下一步的走棋。

快速走子(Fast rollout),目标和1一样,但在适当牺牲走棋质量的条件下,速度要比1快1000倍。

估值网络(Value Network),给定当前局面,估计是白胜还是黑胜。

蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS),把以上这三个部分连起来,形成一个完整的系统。

我们的DarkForest和AlphaGo同样是用4搭建的系统。DarkForest较AlphaGo而言,在训练时加强了1,而少了2和3,然后以开源软件Pachi的缺省策略 (default policy)部分替代了2的功能。以下介绍下各部分。

1、走棋网络

走棋网络把当前局面作为输入,预测/采样下一步的走棋。它的预测不只给出最强的一手,而是对棋盘上所有可能的下一着给一个分数。棋盘上有361个点,它就给出361个数,好招的分数比坏招要高。

DarkForest在这部分有创新,通过在训练时预测三步而非一步,提高了策略输出的质量,和他们在使用增强学习进行自我对局后得到的走棋网络(RL network)的效果相当。当然,他们并没有在最后的系统中使用增强学习后的网络,而是用了直接通过训练学习到的网络(SL network),理由是RL network输出的走棋缺乏变化,对搜索不利。

有意思的是在AlphaGo为了速度上的考虑,只用了宽度为192的网络,而并没有使用最好的宽度为384的网络(见图2(a)),所以要是GPU更快一点(或者更多一点),AlphaGo肯定是会变得更强的。

所谓的0.1秒走一步,就是纯粹用这样的网络,下出有最高置信度的合法着法。这种做法一点也没有做搜索,但是大局观非常强,不会陷入局部战斗中,说它建模了“棋感”一点也没有错。我们把DarkForest的走棋网络直接放上KGS就有3d的水平,让所有人都惊叹了下。

可以说,这一波围棋AI的突破,主要得益于走棋网络的突破。这个在以前是不可想像的,以前用的是基于规则,或者基于局部形状再加上简单线性分类器训练的走子生成法,需要慢慢调参数年,才有进步。

当然,只用走棋网络问题也很多,就我们在DarkForest上看到的来说,会不顾大小无谓争劫,会无谓脱先,不顾局部死活,对杀出错,等等。有点像高手不经认真思考的随手棋。因为走棋网络没有价值判断功能,只是凭“直觉”在下棋,只有在加了搜索之后,电脑才有价值判断的能力。

2、快速走子

那有了走棋网络,为什么还要做快速走子呢?有两个原因,首先走棋网络的运行速度是比较慢的,AlphaGo说是3毫秒,我们这里也差不多,而快速走子能做到几微秒级别,差了1000倍。所以在走棋网络没有返回的时候让CPU不闲着先搜索起来是很重要的,等到网络返回更好的着法后,再更新对应的着法信息。

其次,快速走子可以用来评估盘面。由于天文数字般的可能局面数,围棋的搜索是毫无希望走到底的,搜索到一定程度就要对现有局面做个估分。在没有估值网络的时候,不像国象可以通过算棋子的分数来对盘面做比较精确的估值,围棋盘面的估计得要通过模拟走子来进行,从当前盘面一路走到底,不考虑岔路地算出胜负,然后把胜负值作为当前盘面价值的一个估计。

这里有个需要权衡的地方:在同等时间下,模拟走子的质量高,单次估值精度高但走子速度慢;模拟走子速度快乃至使用随机走子,虽然单次估值精度低,但可以多模拟几次算平均值,效果未必不好。所以说,如果有一个质量高又速度快的走子策略,那对于棋力的提高是非常有帮助的。

为了达到这个目标,神经网络的模型就显得太慢,还是要用传统的局部特征匹配(local pattern matching)加线性回归(logistic regression)的方法,这办法虽然不新但非常好使,几乎所有的广告推荐,竞价排名,新闻排序,都是用的它。

与更为传统的基于规则的方案相比,它在吸纳了众多高手对局之后就具备了用梯度下降法自动调参的能力,所以性能提高起来会更快更省心。AlphaGo用这个办法达到了2微秒的走子速度和24.2%的走子准确率。24.2%的意思是说它的最好预测和围棋高手的下子有0.242的概率是重合的,相比之下,走棋网络在GPU上用2毫秒能达到57%的准确率。这里,我们就看到了走子速度和精度的权衡。

和训练深度学习模型不同,快速走子用到了局部特征匹配,自然需要一些围棋的领域知识来选择局部特征。对此AlphaGo只提供了局部特征的数目(见Extended Table 4),而没有说明特征的具体细节。我最近也实验了他们的办法,达到了25.1%的准确率和4-5微秒的走子速度,然而全系统整合下来并没有复现他们的水平。

我感觉上24.2%并不能完全概括他们快速走子的棋力,因为只要走错关键的一步,局面判断就完全错误了;而图2(b)更能体现他们快速走子对盘面形势估计的精确度,要能达到他们图2(b)这样的水准,比简单地匹配24.2%要做更多的工作,而他们并未在文章中强调这一点。

在AlphaGo有了快速走子之后,不需要走棋网络和估值网络,不借助任何深度学习和GPU的帮助,不使用增强学习,在单机上就已经达到了3d的水平(见Extended Table 7倒数第二行),这是相当厉害的了。任何使用传统方法在单机上达到这个水平的围棋程序,都需要花费数年的时间。在AlphaGo之前,Aja Huang曾经自己写过非常不错的围棋程序,在这方面相信是有很多的积累的。

3、估值网络

AlphaGo的估值网络可以说是锦上添花的部分,从Fig 2(b)和Extended Table 7来看,没有它AlphaGo也不会变得太弱,至少还是会在7d-8d的水平。少了估值网络,等级分少了480分,但是少了走棋网络,等级分就会少掉800至1000分。特别有意思的是,如果只用估值网络来评估局面(2177),那其效果还不及只用快速走子(2416),只有将两个合起来才有更大的提高。

我的猜测是,估值网络和快速走子对盘面估计是互补的,在棋局一开始时,大家下得比较和气,估值网络会比较重要;但在有复杂的死活或是对杀时,通过快速走子来估计盘面就变得更重要了。考虑到估值网络是整个系统中最难训练的部分(需要三千万局自我对局),我猜测它是最晚做出来并且最有可能能进一步提高的。

关于估值网络训练数据的生成,值得注意的是文章中的附录小字部分。与走棋网络不同,每一盘棋只取一个样本来训练以避免过拟合,不然对同一对局而言输入稍有不同而输出都相同,对训练是非常不利的。这就是为什么需要三千万局,而非三千万个盘面的原因。对于每局自我对局,取样本是很有讲究的,先用SL network保证走棋的多样性,然后随机走子,取盘面,然后用更精确的RL network走到底以得到最正确的胜负估计。当然这样做的效果比用单一网络相比好多少,我不好说。

一个让我吃惊的地方是,他们完全没有做任何局部死活/对杀分析,纯粹是用暴力训练法训练出一个相当不错的估值网络。这在一定程度上说明深度卷积网络(DCNN)有自动将问题分解成子问题,并分别解决的能力。

另外,我猜测他们在取训练样本时,判定最终胜负用的是中国规则。所以说三月和李世石对局的时候也要求用中国规则,不然如果换成别的规则,就需要重新训练估值网络(虽然我估计结果差距不会太大)。至于为什么一开始就用的中国规则,我的猜测是编程非常方便(我在写DarkForest的时候也是这样觉得的)。

4、蒙特卡罗树搜索

这部分基本用的是传统方法,没有太多可以评论的,他们用的是带先验的UCT,即先考虑DCNN认为比较好的着法,然后等到每个着法探索次数多了,选择更相信探索得来的胜率值。而DarkForest则直接选了DCNN推荐的前3或是前5的着法进行搜索。我初步试验下来效果差不多,当然他们的办法更灵活些,在允许使用大量搜索次数的情况下,他们的办法可以找到一些DCNN认为不好但却对局面至关重要的着法。

一个有趣的地方是在每次搜索到叶子节点时,没有立即展开叶子节点,而是等到访问次数到达一定数目(40)才展开,这样避免产生太多的分支,分散搜索的注意力,也能节省GPU的宝贵资源,同时在展开时,对叶节点的盘面估值会更准确些。除此之外,他们也用了一些技巧,以在搜索一开始时,避免多个线程同时搜索一路变化,这部分我们在DarkForest中也注意到了,并且做了改进。

5、总结

总的来说,这整篇文章是一个系统性的工作,而不是一两个小点有了突破就能达到的胜利。在成功背后,是作者们,特别是两位第一作者David Silver和Aja Huang,在博士阶段及毕业以后五年以上的积累,非一朝一夕所能完成的。他们能做出AlphaGo并享有现在的荣誉,是实至名归的。

从以上分析也可以看出,与之前的围棋系统相比,AlphaGo较少依赖围棋的领域知识,但还远未达到通用系统的程度。职业棋手可以在看过了寥寥几局之后明白对手的风格并采取相应策略,一位资深游戏玩家也可以在玩一个新游戏几次后很快上手,但到目前为止,人工智能系统要达到人类水平,还是需要大量样本的训练的。可以说,没有千年来众多棋手在围棋上的积累,就没有围棋AI的今天。

alphago 是人工智能还是机械智能

当然是人工智能了,不过目前阶段仍属于弱人工智能。
机械是硬件,是不可能具备智能的。
软件是规则,逻辑,是可以实现智能的。
不过不具备思维、创造的软件,能力再强,也不算是完全意义上的智能。
alphago目前并不具备思维创造能力。

哑铃的练习方法是什么

有的人练习哑铃练不下去了,有的人长时间练习收不到效果,这可能是没有掌握动作要领的原因,如果你掌握了标准动作并且长期坚持的话一定会收到好的效果,具体该怎么做呢?以下是学习啦小编整理的哑铃的练习方法,欢迎阅读。

 

 哑铃的练习方法是什么

一、哑铃锻炼方法图解——胸部肌肉锻炼

动作1、平板哑铃推胸

动作2、上斜哑铃飞鸟

动作3、持铃俯卧撑

动作4、上斜哑铃卧推

动作5、下斜哑铃卧推

二、哑铃锻炼方法图解——肩部肌肉锻炼

动作1、坐姿哑铃推肩

动作2、俯身哑铃飞鸟

动作3、直立哑铃侧平举

动作4、直立哑铃胸前提拉

动作5、直立哑铃耸肩

三、哑铃锻炼方法图解——背部肌肉锻炼

动作1、引体向上

动作2、哑铃硬拉

动作3、俯身哑铃划船

动作4、单臂哑铃划船

四、哑铃锻炼方法图解——手臂肌肉锻炼

动作1、托臂哑铃弯举

动作2、双杠臂屈伸

动作3、后仰哑铃臂屈伸

动作4、跪姿单臂哑铃臂屈伸

动作5、坐姿哑铃弯举

五、哑铃锻炼方法图解——腿部肌肉锻炼

动作1、俯卧负重腿弯举

动作2、坐姿负重腿屈伸

动作3、负重哑铃箭步蹲

动作4、负重哑铃深蹲

动作5、负重哑铃提踵

六、哑铃锻炼方法图解——腹部肌肉锻炼

动作1、直立哑铃体侧屈

动作2、固腿仰卧起坐

动作3、上斜仰卧举腿

七、基本锻炼原则

1.瘦人增肌适于采用大重量、少次数的哑铃练习,一般每

组动作8-12RM效果最佳。

2.胖人减脂适于采用小重量、多次数的哑铃练习,一般每组动作50RM以上效果最佳。

3.塑型为目的适于采用中等重量哑铃练习,一般每组动作25-30RM效果最佳。

RM:[1]rm表示的是相对重量,8rm是指你最多能够连续完成8次的重量,或者说,你能够连续完成8次的最大重量。前提是动作标准,不要借力作弊。

一般来说,增长最大力量用1-5rm的重量来练习,增肌用6-12rm的重量,减脂用15-20rm的重量,每组至力竭。(但是对于新学员,我们都是说8-12rm,每组10次)

哑铃侧平举怎么做

一、单臂哑铃侧平举。

类似于双手哑铃侧平举,也是主要健美三角肌中束部。相比起来优势在于它可以对三角肌一侧孤立的刺激更有效,而且单手侧平举时单手可以应付比双手侧平举时多30%的哑铃重量,适合大重量极限刺激阶段练习。

二、锻炼方法

单臂哑铃侧平举动作图解

1、开始准备:其中一手握哑铃,另一手扶住一样东西,比如可调整的上斜凳或机器支架;身体稍微向手握哑铃的一边倾斜。

2、动作过程:哑铃稍微碰触身侧,然后向身侧抬高手臂直到哑铃高过肩膀。在最高点稍作停留,再缓缓将哑铃降下,回到身侧。重复动作。

三、注意事项

1、振臂时吸气,还原放下手臂时呼气。

2、当哑铃向两侧提起时,同时使手腕向上转起至比大拇指稍高些,直到提起至最高位置;哑铃落下时,手腕再转回。

3、持铃提起和放下过程中,使肘部和腕部始终稍微弯屈,对三角肌的收缩更为有效。侧平举一般要求直臂,但稍微弯曲肘部甚至屈臂,对于冲击大重量时可避免通过关节运动来借力,起到保护肘关节的作用。

4、持铃举起或放下时,上体不准前后摆动借助力量举起,但允许耸肩;不要用甩的方式来抬高哑铃;身体不要向前倾!将哑铃保持在身侧。

高尔夫的速成法是什么

现在很多人都喜欢高尔夫这一热门的养生运动,高尔夫真正的速成法虽然有但是很稀少。你们有听过高尔夫速成法吗?高尔夫速成法具体有哪些?学习啦小编带你来了解一下吧。

 

 高尔夫速成法

不妨尽量找些比自己打得好的朋友一起打球,多观察他们的动作,他们如何处理不同的击球,虽然高尔夫是很个性化的运动,但有些要领性的东西还是相通的。光观察还是不够的,很多技巧是看不出来的,还要做到不耻下问。

有些动作你总是做不好,大胆地去问,看看别人有什么小窍门可以去借鉴,说不定别人不经意的一句话就会令你茅塞顿开,比你自己在那里闷头苦练一个月还管用的多。

高尔夫是绅士运动,所以我们会经常看到很多的“绅士”,他们非常热情,或者说非常渴望地去帮助别人,在练习场上会经常看到这样的人。这是一件好事,但我们也要注意,不要看到一个戴着高尔夫名牌球帽,背着最新款球杆的人就认为他们是个高手。

也许他们的差点比你还高,但非常乐意给你讲讲他们的经验,往往是不听还好,越听越胡涂,到不如不听。所以问问题的时候也要看准人,最好是熟悉的人,是职业教练,肯定比你有经验的人,不要随便抓过来一个人就问。

高尔夫是一种把享受大自然乐趣、体育锻炼和游戏集于一身的运动。现代高尔夫球运动已经成为贵族运动的代名词。今天的高尔夫速成法你们都学会了吗?高尔夫指南中说高尔夫速成法也是需要自己不断努力练习,记住天下没有白吃的午餐。

高尔夫的技巧

俗话说得好,学无止境,在高尔夫这个领域中也同样如此,就好象学习一门语言一样,如果只是你自己一个人在那里死记硬背,不论你多下功夫,进步也是很缓慢的。

如果你能够走出自己个人的圈子,多和别人去沟通和交流,学习别人好的经验,找机会和母语人士去说去练,那么在很短的时间内能够提高并不是难事。所以不妨尽量找些比自己打得好的朋友一起打球,多观察他们的动作,他们如何处理不同的击球,虽然高尔夫是很个性化的运动,但有些要领性的东西还是相通的。光观察还是不够的,很多技巧是看不出来的,还要做到不耻下问。有些动作你总是做不好,大胆地去问,看看别人有什么小窍门可以去借鉴,说不定别人不经意的一句话就会令你茅塞顿开,比你自己在那里闷头苦练一个月还管用的多。他们非常热情,或者说非常渴望地去帮助别人,在练习场上会经常看到这样的人。这是一件好事,但我们也要注意,不要看到一个戴着高尔夫名牌球帽,背着最新款球杆的人就认为他们是个高手。

高尔夫球即可以作为一种休闲活动,也可以是一种专门的竞技比赛,无论是哪一种,对于自身的的技巧也是有一定要求的。通过上面的介绍您了解了如何打高尔夫了吗,学会了现在我们可能经常会与朋友一起去打高尔夫。

高尔夫的健身功效

高尔夫球的击球动作是全身的整体运动,几乎需要全身肌肉和关节的运动来完成:通过腰部发力,挥动双臂击球,双脚走完全程,尤其是挥杆,是一套集协调、力量、爆发力的完整动作。在练习场上打上200个球,对不常锻炼的人来说绝不是一件轻松的事情。

高尔夫健身计划的四大器材角色

高尔夫是集力量、协调性和爆发力于一体的运动,需要动用全身的肌肉和关节,特别是腰部、肩部和双臂等部位来完成整个挥杆动作,能充分锻炼身体的柔韧性。

所以除去下场或者在训练场作基础的动作练习,选择合适的器材放在家里,对于日常的健身都是一项不可或缺的因素。

跑步机稳定你的挥杆

跑步机主要用于锻炼腿部肌群,可消耗能量,改善心肺机能,加快血液循环。跑步时速度要从慢到快,呼吸要均匀,尽量控制在3或4步完成一次呼吸。如果在跑步机上做仰卧起坐运动,还可以锻炼腹部和背脊下部的肌群。腿部力量的大小对稳定挥杆起着很大作用。

健步机有效防止运动损伤

健步机主要是针对双腿进行锻炼,可以增强双腿的肌肉力量和腿部关节的能力,提高双腿骨骼的骨质密度,防止骨质疏松,有效避免运动损伤。

本文Hash:d8444d4cad8eb9926eb7dccabca0e986ac40294d

声明:此文由 飞舞九天 分享发布,并不意味开心100赞同其观点。文章内容仅供参考,此文如侵犯到您的合法权益,请联系我们。