联系我们

地址:贵港市迎宾大道西江钢材市场B6-27、28号
手机:13977508877
电话:0775-4568805
邮箱:847130976@qq.com

资讯中心   

让模型向人类学说话,连带人类的惰性一起

作者:admin  日期:2019-11-11 23:36:26

雷锋网 AI 科技评论按:OpenAI 的长期目标之一是使用强化学习解决真实世界问题的时候也能保持实用性和安全性(这一点和 DeepMind 有类似之处),那么在 OpenAI 看来,使用语言的能力就是达到这个目标的关键因素之一。

本文引用地址:http://www.eepw.com.cn/article/201909/405423.htm


另一方面,在目前的强化学习研究中大家观察到一种现象,就是用明确的规则约束、用预定义的反馈激励智能体的时候,它们经常反而会学会使用环境和规则中的漏洞,和人类本来设定的目标背道而驰。所以另一种思路是让智能体模仿人类,根据人类的偏好、把人类的一次次评价作为学习信号进行学习。此前这方面的研究主要针对简单的模拟环境(游戏或者机器人控制任务,比如之前 OpenAI 和 DeepMind 合作的 你做我评)。

向人类牙牙学语

OpenAI 这次想做一个大胆的尝试,把「使用语言的能力」和「根据人类的偏好学习」两者结合起来,尝试这种思路对于语言这种复杂的内容能否奏效——就是从结果出发,让模型学会人类觉得喜欢的表达方式;另外,这样学习到的语言的拓展和说理能力也能帮助我们探索人类语言偏好背后的缘由。

在这项研究中,OpenAI 在两个常见的语言任务上尝试了「根据人类的偏好学习」:一,在 BookCorpus 数据集上用正面情感或者客观描述词汇续写文本,即「带风格的续写」;二,在 TL;DR 和 CNN/Daily Mail 数据集上学习文本总结。这两个任务都可以看作文本补全这个大类中的任务:给定某个文本 X,让模型补充紧跟着的文本 Y。

OpenAI 的实验从含有 774M 参数的预训练 GPT-2 模型开始。他们对预训练模型进行精细调节,方式是让人类标注员从模型生成的每组四个样本中选择最好的一个(而不是传统的精细调节中以固定的、已经标注好的数据进行监督学习;这种做法实质上是对给模型的不同行为给予不同的反馈,所以实际上更像强化学习,OpenAI 也设计了相应的强化学习框架的反馈组件)。

由于 GPT-2 已经有不错的文本生成、续写能力,所以前一个带风格的续写任务的精细调节只经过了 5000 次样本选择就达到了人们认为非常好的表现;对于后一个总结任务,模型经过 6 万组样本的精细调节以后学会了从给定的文本里重复整个句子来作为总结(不过它能够跳过作用不大的引言)。重复整个句子作为总结确实是确保准确度的一个好方法,不过出现这个结果也可能是因为这个任务的标注人员们(选择样本的人们)在偷懒;他们依赖这样

上一篇:安富利与阿里巴巴携手合作 拓展中国电商市场     下一篇:飞利浦携全球最新健康科技亮相第二届中国国际进口博览会