通过AI智能是如何强化学习的?
AI是如何学习的?今天我们来说说alphago(阿尔法围棋,第一个击败人类职业围棋选手,第一个战胜围棋世界冠军的人工智能机器人)、zero的主要学习方式。
AI是如何学习的?今天我们来说说alphago(阿尔法围棋,第一个击败人类职业围棋选手,第一个战胜围棋世界冠军的人工智能机器人)、zero的主要学习方式。简单的讲,强化学习就是AI通过环境反馈,将自己完成任务的方式优化得越来越好的循环过程。也许有人会问,你现在计算机运行速度穷举所有的可能性就可以了,但事情没有这么简单。
先说计算,以弹幕游戏为例,假设画面大小为500*500像素,因为要预估子弹走势,给飞机留出移动时间,所以需要四张连续图片进行计算。极端情况下,某一时刻所有计算的可能性是没有子弹到满屏子弹,共有2的25万次方的可能性,解析和保存这个量级的图片状态,穷举无法办到。
先说计算,以弹幕游戏为例,假设画面大小为500*500像素,因为要预估子弹走势,给飞机留出移动时间,所以需要四张连续图片进行计算。极端情况下,某一时刻所有计算的可能性是没有子弹到满屏子弹,共有2的25万次方的可能性,解析和保存这个量级的图片状态,穷举无法办到。
再说策略,以围棋为例,比如在第二十步时走错一子,导致第三十步输掉比赛。环境并不能在第二十步时告诉AI走的好与不好,只能在输掉比赛后再去评估每一步的对错。所以强化学习的策略是通过不断试错学习到一个长期回报的动作序列。目前强化学习已在游戏、量化交易、机器人、火箭垂直回收等领域得到了较好的应用。
责任编辑:学与搜培训网