凤凰网科技讯 北京时间3月5日,据《》报导,全球最大的计算机专业技能人员协会计算机协会(ACM)周三宣告,将2024年图灵奖颁发安德鲁巴托(Andrew Barto)博士和理查德萨顿(Richard Sutton)博士,以赞誉他们在
巴托现在是马萨诸塞大学荣誉退休教授。萨顿现在担任阿尔伯塔大学教授,他也是前DeepMind研讨科学家。两人将共享图灵奖的100万美元奖金。图灵奖设立于1966年,常被称为“计算机界的诺贝尔奖”。
“他们是强化学习范畴无可争议的前锋,”华盛顿大学计算机科学荣誉退休教授、艾伦AI研讨所创始人兼CEO奥伦埃特齐恩(Oren Etzioni)表明,“他们提出了要害理念,而且撰写了这方面的威望作品。”
曩昔十年,强化学习在人工智能(AI)的兴起中发挥了至关重要的效果,这中心还包含谷歌的AlphaGo和OpenAI的ChatGPT等打破性技能。支撑这些体系的技能就源于巴托博士和萨顿博士的研讨成果。
1977年,巴托在马萨诸塞大学阿默斯特分校担任研讨员时,开端探究一种新的理论,即神经元的行为类似于吃苦主义者。该理论的根本理念是,人类大脑由数十亿个神经细胞驱动,每个神经细胞都在尽力将愉悦感最大化,把苦楚感最小化。
一年之后,另一位年青的研讨员萨顿也加入了他的队伍。他们一同尽力用这个简略的概念来解说人类的智力,并将其应用于AI范畴。他们的研讨成果就是强化学习,这是一种让AI体系从数字国际的“愉悦”与“苦楚”中学习的办法。
2016年AlphaGo打败李世石震动国际,这场人工智能的“登月时间”背面,正是强化学习的威力表现。谷歌DeepMind团队核心成员大卫席尔瓦,正是萨顿在阿尔伯塔大学培育的弟子。经过数百万次自我对弈,体系建立起“胜者愉悦-败者苦楚”的反应机制,终究打破人类千年围棋才智。
这种学习范式在ChatGPT等大言语模型中持续进化。2022年末,OpenAI经过“人类反应强化学习”(RLHF)技能,让数百名标示员引导模型优化应对。当谈天机器人学会区分优质答复获得“集聚”,其对话才能发生质的腾跃。近期DeepSeek等企业更开发出自主强化学习体系,使AI能像解数学题般,经过试错把握逻辑推理才能。
在强化学习方面,DeepSeek获得三大打破:创始无需人类标示的自主强化学习体系,使AI经过试错把握数学推理等高阶才能;优化RLHF技能,下降人工标示本钱并拓宽至对话、代码生成等场景;前瞻布局物理国际练习,推进机器人实体智能进化。其技能实现从数字反应到自主决议计划的跨过,为通用AI开展供给新途径。
现年76岁的巴托教授指出:“经过强化学习操控物理躯体,将是天然演进的下个阶段。”现在任职于Keen Technologies的萨顿相同以为,当时根据文本的学习仅仅序章,未来机器人将在实在国际中像生物般试错生长。(作者/箫雨)