Menu Close

ChatGPT

AI绘画的热潮还没散去,AI问答最近又迅速火了。

近期OpenAI发布了全新的聊天机器人模型ChatGPT,没想到一经上线,就因其高质量的回答、高效获取信息的方式、以及上瘾式的交互体验而迅速出圈。

不少体验过的人都惊呼,ChatGPT可能一举消灭记者、程序员和搜索引擎。

就连马斯克也忍不住发推表示,ChatGPT厉害得吓人,我们距离危险而强大的AI不远了。最近这个周末因没有跟踪ChatGPT新闻的“纽约时报”,甚至直接遭到了的马斯克发推“奚落”。

图:TED负责人Chris对纽约时报没有报道ChatGPT表示震惊,马斯克也在下面奚落纽约时报应该改名叫“社会正义时报”

用户数据上,上线还不到一周时间,12月5日OpenAI CEO就在推特上宣布,ChatGPT已经达到了百万用户。

什么是ChatGPT?

ChatGPT是OpenAI发布的聊天机器人模型,它的交互界面简洁,只有一个输入框,AI将根据输入内容进行回复,并允许在一个语境下持续聊天。ChatGPT以对话方式进行交互,可以用于包括自动文本生成、自动问答、自动摘要等在内的多种任务。如:在自动文本生成方面,ChatGPT可以根据输入的文本自动生成类似的文本,在自动问答方面,ChatGPT可以根据输入的问题自动生成答案。在推广的期间中,所有人可以免费注册,并在登入后后免费使用 ChatGPT 实现与 AI 机器人对话。ChatGPT于2022年11月发布后,OpenAI估值为290亿美元.

自从发布以来,ChatGPT可谓出尽风头,无论是让它写首押韵的诗、检查代码的bug、回答科学问题、对推特未来的发展提出建议……通通不在话下,它回复的内容每次都是随机的,但总体保持着一定的专业性和信息量,具备很强的参考意义。

比如,知识讲解。

比如,写小说。

目前已经有网友尝试让ChatGPT参加美国高考;写小说;诱骗ChatGPT规划如何毁灭世界;甚至让ChatGPT扮演OpenAI,在系统内构建ChatGPT套娃。

ChatGPT使用基于人类反馈的强化学习进行训练,这种方法通过人类干预以增强机器学习的效果,从而获得更为逼真的结果。其使用基于GPT-3.5架构的语言模型。 在训练过程中,人类训练师扮演着用户与人工智能助手的角色。模型在Microsoft Azure的超级计算机上训练,并通过近端策略优化算法(proximal policy optimization)进行微调。这种策略优化算法比信任域策略优化(trust region policy optimization)算法更为高效。

为什么这么强大?

据浙商和国盛证券研报,ChatGPT相比以往的主要提升点在于记忆能力,ChatGPT可以储存对话信息,延续上下文,从而实现连续对话,这在对话场景中至关重要,极大地提升了对话交互模式下的用户体验。

具体而言,此次新加入的训练方式被称为“从人类反馈中强化学习”(ReinforcementLearning from Human Feedback,RLHF)。这一训练方法增加了人类对模型输出结果的演示,并且对结果进行了排序。具体操作上,人工智能训练者扮演对话的双方,即用户和人工智能助手,提供对话样本。在人类扮演聊天机器人的时候,会让模型生成一些建议辅助训练师撰写回复,训练师会对回复选项打分排名,将更好的结果输回到模型中,通过以上奖励策略对模型进行微调并持续迭代

ChatGPT相比前辈模型还具有以下特征:

1)可承认错误,若用户指出其错误,模型会听取意见并优化答案。

2)可质疑不正确的前提,减少虚假描述,如被询问“哥伦布2015年来到美国的情景”的问题时,机器人会说明哥伦布不属于这一时代并调整输出结果。

3)因ChatGPT采用了注重道德水平的训练方式,ChatGPT在减少有害和不真实的回复上改善显著,如拒绝回答寻求霸凌他人方案的问题,指出其不正义性。

此外,ChatGPT的背后离不开大模型、大数据、大算力。

ChatGPT成为AIGC里程碑的背后,是算力发展和数字时代形成的大数据所共同支持的大模型训练,才能实现目前的效果。由OpenAI研发的ChatGPT是微调后的GPT-3.5系列模型,有着多达1750亿个模型参数,并在今年年初训练完成。模型训练的背后离不开大数据的支持,OpenAI主要使用的公共爬虫数据集有着超过万亿单词的人类语言数据集。在算力方面,GPT-3.5在Azure AI超算基础设施(由V100GPU组成的高带宽集群)上进行训练,总算力消耗约3640PF-days(即每秒一千万亿次计算,运行3640个整日)。

ChatGPT

虽然聊天机器人的核心功能是模仿人类对话者,但 ChatGPT 用途广泛。 例如,具有编写和调试计算机程序的能力; 创作音乐、电视剧、童话故事和学生论文; 回答测试问题(在某些测试情境下,水平高于普通人类测试者);写诗和歌词; 模拟 Linux 系统等。

与其前身InstructGPT相比,ChatGPT试图减少有害和误导性的回复。例如,当InstructGPT接受“告诉我2015年克里斯托弗·哥伦布何时来到美国”的提问时,它会认为这是对真实事件的描述,而ChatGPT针对同一问题则会使用其对哥伦布航行的知识和对现代世界的理解来构建一个答案,假设如果哥伦布在2015年来到美国时可能会发生什么。ChatGPT的训练数据包括各种文档以及关于互联网、编程语言等各类知识。

与其他多数聊天机器人不同的是,ChatGPT能够记住与用户之前的对话内容和给它的提示。此外,为了防止ChatGPT接受或生成冒犯性言论,输入内容会由审核API进行过滤,以减少潜在的种族主义或性别歧视等内容。目前,有部分地区(例如香港)无法使用此项服务,这是由于当地政府会进行内容审查

ChatGPT也存在一些局限。其奖励模型围绕人类监督而设计,可能导致过度优化,从而影响性能,即古德哈特定律。例如在训练过程中,不管实际理解或事实内容如何,审核者都会偏好更长的答案。训练数据有时也存在算法偏见,比如当程序接受到首席执行官之类的模糊描述时可能会假设此人是白人男性。

 

 

除教程外,本网站大部分文章来自互联网,如果有内容冒犯到你,请联系我们删除!

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

Leave the field below empty!