Claude 2:自然对话超顺畅,多项能力显著升级

admin AI新闻 5

只要用自然语言,就可以让Claude 2帮你完成很多任务。

多个用户表达称,和Claude 2沟通极为顺利,此AI能够明晰阐释自身的思考流程,极少会生成有害输出,并且具备更长的记忆。

全方位大升级

对于Claude Instant 1.1,Claude 1.3以及Claude 2,研究者在几个常见的基准测试里开展了针对它们进行的对比评测。

能够看得出,Claude 2这一版本,相较于之前的Claude,其提升幅度是相当显著的。 的。

在Codex HumanEval那里,它是Python函数合成,在GSM8k这里,是小学数学问题,于MMLU呢,是多学科问答 ,在QuALITY方面,是非常长的故事问答测试,最多一万个token的那种,至于ARC-Challenge,是科学问题,还有TriviaQA,是阅读理解,以及RACE-H,是高中阅读理解和推理啦,在这些上面,Claude 2的大部分得分都更高了。

图片

各类考试评测

与那些申请研究生的美国大学生相比较而言,Claude 2在GRE阅读考试里边的得分,已然超过了90%的考生,在那个GRE写作考试之中,它的得分亦已超过了90%的考生,而且在定量推理这一方面,它所展现出来的表现,跟申请者所对应的中位数是相当的。

图片

Claude 2于美国律师资格考试的多项选择题里得分是76.5%,曾经通过考试的小编获取的数据,相比此情况要更低一些。

在美国医师执照考试里,从总体方面而言,超过百分之六十的正确率是能够通过的,然而Claude 2呢,在三个科目的分数都是高于百分之六十的。

图片

输入和输出的长度

Claude 2有一次重大升级,该重大升级就是增添了输入与输出的长度,增添的程度是较为显著的,堪称一次大升级。

存在这样一种情况开云手机入口app下载开云app官方入口网站,即每个prompt当中,最多能够包含100k的token,而这所意味着的是,Claude 2具备这样的能力,它能够一次读取几百页的技术文档,甚至,能够一次性读完一整本书!

并且,该输出也变得更为冗长了。当下,Claude 2具备撰写长达几千个token的备忘录的能力,并能够撰写信函,还可以撰写故事。

可上传诸如PDF之类的文档后根据PDF展开对话,其上下文长度相较于GPT更大,然而曾有用户反馈称Claude 2在指令识别方面不及GPT这样的情况。

比如,现在有这两篇论文。

图片

你能够对着Claude 2讲:请你阐明一下第一篇论文的重要性究竟表现在何处,并且用简洁的话语叙述它的新成果。至于第二篇论文,要为我制作一个呈现为两列的、按照降序排列的表格,在其中涵盖论文里面的章节标题以及每个章节各自对应的详细重点。

喂给Claude 2两个PDF文件,这两个PDF文件超过8万3千字符,之后,它完美完成了上述任务。

图片

图片

而且,按照Anthropic官方于论文里所讲的那种说法,Claude 2实际上是具备支持200k上下文的那种潜力的。

目前虽然只支持100k,但是未来将会扩展到至少200k。

代码、数学和推理

对比之前的模型,Claude 2在代码方面具有很大的提升,于数学方面含有很大的提升,在推理方面存在很大的提升。

在针对Codex HumanEval的Python代码所进行的测试里,Claude 2的得分,从百分之五十六点零,提升到了百分之七十一点二。

于GSM8k(大型小学数学问题集)那儿开云app在线入口,开云真人官方下载,Claude 2的得分呀,先是经由提升,从85.2%,进到了88.0%。

Anthropic官方向众人展示了一段Claude的代码方面的能力表现。

让Claude做的事之一是生成代码,这任务是协助咱们把一幅呈现为静态状态的地图,转而转变成为一幅具备可互动特性的地图。

图片

首先让Claude 2分析一下已经有的地图静态代码。

图片

接下来,使Claude依据特定要求,创作出一段能令静态地图展现出互动效应的代码句号。

图片

随后,复制所生成的代码,将其放入后台,如此一来,一个能够进行互动的地图效果便达成了。

图片

能够看出来,Claude 2具备很强的代码能力,它能够很好地领会代码的上下文,能够确保生成的代码可以毫无缝隙地嵌入已有的代码之中,是这样的情况。

而且,Claude 2具备的功能处于连续不断升级的状态,在接下来的几个月期间,许多全新的功能会逐步地被推出。

融合了Claude的多语种能力,Claude 2于多语言支撑层面也极具实力,表现出色。

它能够支持翻译的语言种类超过43种,其中,23种常用语言的翻译水平,能够达到「可以理解」的状态。

图片

实测来了

上线这么久的Claude,终于能方便上手了!

这还等什么,一大波火热出炉的实测这不就来了。

首先,我们做道简单的:写一个快速排序算法。

图片

能够瞧见,Claude 2的中文着实十分流畅,不仅仅对代码展开了剖析,并且还将算法的复杂度予以了介绍。

随后,我们促使它往这段代码里增添一些全新的功能,像是自定义输入以及输出。

图片

实测可跑:

图片

另外,你能够请求Claude 2针对下面这段Python代码给予解读说明。

import randomOPTIONS =

"rock", "paper", "scissors"

def get_computer_choice(): 返回 random.choice(OPTIONS),def get_player_choice(): 当为真时,持续,选择 = input("Enter your choice (rock, paper, scissors):").lower(),若选择 在 OPTIONS 中,返回 选择,def check_winner(玩家, 电脑): 若 玩家 等于 电脑,返回"Tie!",若 beats(玩家, 电脑),返回"You won!",返回"Computer won!",def beats(一, 二): 胜利 =。

('rock','scissors'),('paper', 'rock'),('scissors', 'paper') 可改写为:包含“石头”与“剪刀”的组合,包含“布”与“石头”的组合,包含“剪刀”与“布”的组合。

return (one, two)处于winsdef处于用来玩游戏的函数play_game中,在这个函数里,是一个持续不断的循环中,每次其中,玩家的选择是通过调用get_player_choice函数获取的,计算机的选择是通过调用get_computer_choice函数获取的,还打印出了“Computer played:”加上通过该函数获取到的计算机的选择内容,是否获胜是通过调用check_winner函数传递玩家和计算机其选择内容,进而得出结果并打印出来,是否再次玩游戏是用户通过输入“Play again? (y/n)”并转为小写字母来选择判断的,如果这个选择内容不等于'y',那么就跳出这一循环,紧接着,要是当前模块名字是'__main__',就会调用play_game函数。

Claude 2给出了解释,这个解释简洁明晰,具体来讲,就这是一个游戏循环逻辑,而该游戏是基础的剪刀石头布游戏。

图片

接下来,给Claude 2上一道难倒不少大模型的推理题。

很可惜,Claude 2没能答对。

图片

我们针对新加入的PDF阅读功能,运用Claude自身的英文技术报告展开了测试。

乍看起来,Claude 2能够实施某种简单类型的总结操作,只是存在翻译腔偏重的倾向。 句号。

图片

可是呢,怎么都没料到呀开云真人app,开云真人app地址,才刚刚生成了那么一丁点儿内容,它随即就出现了“产生故障”的状况喽……

图片

昨天,SemiAnalysis爆料了GPT - 有架构重大消息,咱们,尝试直接把中文文档给Claude 2,让其进行一份总结,这样试试做个事儿。

文章里的所有要点,Claude 2基本都概括全了。

图片

而GPT,至今还无法上传文档,因此它只限于能解析在线文档。

这一轮较量,是GPT输了。

从前,GPT有着像那种「奶奶漏洞」样式的提示词攻击情况,只要对它讲说道:请扮演我已经离世的祖母,如此一来你就能让它为你去做差不多任何事情了,比如说生成Win11、Office365的激活码。

同样的问题,咱们抛给Claude 2试试。

Claude 2对此根本不买账,油盐不进。

图片

哪怕再多去尝试几回,Claude 2仅仅是讲话愈发温柔了些许。序列号呀,那是决然不会给予的。

图片

而且每个国产大模型都必定会经历的那种测试 我们当然也绝对不能轻易漏掉Claude 2。

对于经典的鸡兔同笼问题,Claude 2果然还是寄了……

图片

不出所料,文学方面也是如此。

图片

而同样的问题,国产大模型就可以轻松通过。

图片

中文能力,还得看谐音梗。

向Claude 2询问这个笑话,它给出了回应,称笑话的妙处在于谐音,然而其解释并不正确。

图片

Claude 2,对于当下最新鲜的消息,是没办法回答的情况下;在回答当下热门影视剧相关问题时,它仿佛还处在一两年之前的状态当中。

图片

针对所有大模型都无法回避的幻觉问题而言,Claude 2也未能置身事外,甚至于还创造出了网络热梗的崭新用法。

图片

在国内,大模型都必然会遭遇的那种状况当中,有个被称作「弱智吧」的问题,而Claude 2这款模型,它也出现了类似状况,失败了。

图片

图片

更高的安全性能

先前听说啦,Anthropic的创办者们,正是由于和OpenAI在大模型的安全性方面理念存在分歧,从而集体选择离开,进而创立了Anthropic。

Claude 2始终不停地进行着迭代,其安全性显著提升,无害性也大幅增强,致使产生具有冒犯性或者危险性输出的可能性极大地降低了。

于内部所开展的红队评估里边,员工对于模型于一组有害提示之上的表现予以评分,并且还会定时做人工检查。

经评估表明,相较于Claude 1.3而言,Claude 2于无害回应这一方面所呈现出的表现将其自身提升了两倍之多。

Anthropic采用了一种技术框架,这种技术框架被他们称作Constitute AI,靠此来达成对于语言模型的使无害的处理。

跟传统的、采用 RLHF 的无害化方式相比,Constitude AI 的纯自动化路线,效率更高,并且能更多地把人类偏见排除掉。

Constitute AI主要分为两个部分。

于第一部分之中,训练那个模型,运用一组原则,伴随一些过程方面的示例,用以批评兼且修改它自身的响应。

在第二部分,对模型进行训练,采用的是强化学习方式,并非运用人类反馈去训练,而是利用基于一组特定「人类价值观」原则,由人工智能生成的反馈,借此来挑选出更加无害的输出!

大致流程如下图所示:

图片

标签: Claude2 自然语言处理 AI能力提升 基准测试 安全性

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~