就在OpenAI陷于混乱的这几日,竞争对手们,不论其为初创公司,还是巨头,均没有置身事外。除了借助销售电话对对方企业客户展开“轰炸”,自身的基石模型亦即具体应用均取得了重要进展。
直接竞争对手之一,牵涉这起混乱的 Anthropic,刚刚为市场提供了一个新的替代方案。这一方案是最新发布的 Claude 2.1。它对公司旗舰大型语言模型做了三项重要更新。
当中,最为引人注目的是,Claude 2.1对上下文窗口的支持达到了200K,Anthropic宣称这是一项繁杂的壮举,并且是行业首创。以往,OpenAI在开发者日上公布的GPT-4上下文窗口是128K。
200K等同于大概150,000个单词,是约500页的材料,对于整个代码库而言,这已足够,对于财务报表(像S - 1)来说,这也已足够,甚至对于《伊利亚特》这般的长篇文学作品,以及《奥德赛》这类长篇文学作品来讲,同样已足够,公司博客中如此写道。
现在,用户能够上传诸多文稿了。在扫描材料之后,Claude便可以跟大量的内容或者数据展开对话,进而进行总结。Claude还要执行问答任务,预测趋势走向,比较多个文档,并且执行诸如判断之类的其他分析操作。
使用Claude聊天服务后,从今年上线开始到现在,已有数百万用户借助它去翻译学术报告,或起草商业文书,又或者分析复杂合约。在处理庞大文件之际,好多用户期望能拥有更长的上下文窗口以及更精确输出,所以,Anthropic做出决定进一步去扩大窗口规模。
通过跟大量的一些内容或者数据去进行各种交流,被更新过的模型能够做总结,能够去执行问答方面的事情,能够预测趋势,能够比较多处的好些文档等工作。以往一般要耗费数小时人力才可以完成的任务,如今仅仅几分钟就搞定,伴随着技术朝前的进展,预计延误将会大规模减少。
从理论层面来讲,技术能够给予用户所期望的任意一种上下文长度,然而,拥有较多的信息并不必然意味着模型就能够将其妥善地处理。存在网友 @Greg Kamradt 针对 Claude 2.1 的上下文记忆展开了压力测试,进而得出了一些颇为重要的发现:

一位名为Greg Kamradt的网友,针对Claude 2.1的200k Token上下文记忆功力展开了承压测定,随之收获了若干要点发觉。
比如说,特别靠近文档起始、末尾位置事实的精准记忆率近乎百分百,然而却难以忆起以及推断中间部分的信息。靠近起始部分事实的记忆成效比不上对末尾事实的记忆(类似于GPT - 4)。
另外,上下文数量越少,其精准程度就越高,当输入的上下文长度超过90K Token时,记忆能力会渐渐变差,然而,对于大多数日常应用而言,32K、64K的上下文窗口长度已然足够,可以满足需求。

Claude 2.1的又一博眼球换代升级乃提升对内容的领会以及摘要档次。公司讲,“幻觉率下降2倍”——相较Claude 2.0那个模型,虚假论断削减了2倍。
他们借助一些已被知晓的、存在弱点的问题去对新模型展开考验开运真人app下载苹果版,开运真人app下载,像是那种「数目众多且繁杂的、具有事实性质的问题」。他们察觉到,该模型呈现出的状况是「显著地更倾向于提出不同意见,可不是给出错误信息」。
也就是说,做出表示不确定的回答具有更高可能性,比如说,是说那种“我不确定玻利维亚第五大人口城市是什么”的回答,而非直接给出错误答案,就像是那种“玻利维亚人口第五多的城市是蒙特罗。”的答案。

另外,该模型于理解层面有所作为,于总结方面也有重要改进,尤其是针对法律文件,还有财报,以及技术说明等这类需要高准确度内容的文档,其错误答案比例降低了30%,把支持性的特定声明文件进行错误推论的情形减少了3至4倍。

其一,Claude 2.1 凭借整合特定工具(类似 Agent)去弥补模型存在的不足,其二,用户能够自定义一组供 Claude 调用的工具,其三,依据任务自动执行操作这样,其四,要是发现解决某个问题得使用计算工具或者调用某个 API,其五,模型便会自动进行调用。
另外,新模型还提供有常见的系统提示,在用户输入提示以前,先对模型的系统提示进行设定,比如告知它扮演特定角色,以更为一致的方式去回答问题。
Anthropic的模型,也许并非一直能和OpenAI的模型相匹敌,然而此行业的发展速度迅猛,竞争程度极其激烈,还有一个事例是,那个对话式聊天机器人Pi背后的初创公司Inflection AI,刚刚完成了新的AI模型Inflection - 2的训练。
与之相比,Inflection-2在能力方面,相较于Inflection-1,有着极大程度的超越,具体主要体现为,在事实知识方面,有显著的改进情况,在风格控制方面,具备了更好的表现,在推理能力方面,实现了提升。
拿 Inflection - 2 和诸多竞品相比较,LLaMA 2 的那 700 亿参数最大值版本,还有 Elon Musk 的 xAI 初创公司的 Grok - 1,谷歌的 PaLM 2 Large,Anthropic 的 Claude 2,在表现优势方面,均输给了 Inflection - 2。
公司首席执行官穆斯塔法·苏莱曼(他还是谷歌深度思维联合创始人兼前任负责人)宣称,Inflection - 2的规模能够被看作是同类产品里最为出色的——“极其极其靠近”GPT - 4。自今日起始,Inflection正将其培训重点转向下一个模型,他预计,该模型在六个月的时间段内会达到其前身的10倍规模,再过六个月又会达到10倍规模。

Inflection一号、谷歌PaLM 2-Large以及Inflection二号于一系列惯常运用的学术基准里的对比。
Suleyman宣称,那更新过后的模型,会很快被整合到Inflection五月推出的聊天机器人Pi里面。于此之前,还得要有更多的「对齐」,去调适Pi的语气以及回答风格,并且还要把模型幻觉给降低。
苏莱曼本人,此前曾毫不隐晦地谈论人工智能安全,在7月,作为拜登政府召集的七家AI公司之一,签署了人工智能风险管理的自愿承诺书。他还发誓,要让派远离回答与选举有关的问题,以及为政治竞选活动制作材料。他最近出版了一本书,这本书详细介绍了人工智能的风险,书名为「即将到来的浪潮(The Coming Wave)」。
实际上,Suleyman和IIya Sutskever有过相应交集,后者曾以DeepMind的承包商以及顾问身份为其开展工作。“我尤为敬重他,不光是在技术层面,并且他极具原则性开云真人app官方版入口,开云真人app官网入口,极为真诚。我觉得他跟团队其余成员的意图是真挚的。”Suleyman在接受福布斯访谈时谈及了对于此次OpenAI震动的某些看法。
除了两大创业公司基石模型出现非常重要的更新之外,巨头在应用的这一层面有着新的行动举措,且是有新的动作的。
被称作谷歌 Bard 的,正在给那些使用它的用户,提供视频解读方面的功能。从昨天起始,参与测试的用户,能够凭借向 Bard 提出问题,大概知晓 YouTube 视频所包含的内容。
举个例子,有烹饪经验的人都曾知晓,熟记食物配方是何等头疼,记录每种配方的量是多么繁杂,明确每种配方的比例又是怎样困难。试问,6寸戚风蛋糕究竟致使多少个鸡蛋被取用?致使多少克糖被添加?还试问,一杯用于制作浓缩咖啡马天尼的饮品,到底需要加入多少本尼迪克特酒?
现当下,借助Bard予以的协助,用户哪怕仅仅输入些许提示,便能够获取一份完整的浓缩咖啡马天尼成分所罗列的清单,以及操作时的步骤呢,此般情形可省去了来回拖曳视频去寻觅关键信息时所带来的麻烦哟。

Bard能够对视频里的关键要点予以总结,并且可以精准地回答浓缩咖啡马天尼的制作配方。
在对这段视频予以总结之际,Bard 将所有关键部分都涵盖其中,像是其所提及的配料以及用量均绝对精准无误,关于操作之说明亦全然正确,甚至于还能准确无误地提醒你,第一步要采用带有冰块的水去冷却马提尼杯。
稍微不太精准有些特别奇怪的重要情况是,视频明确告知应采取摇晃饮料时长为30秒这种看似简单的建议——然而这里绝对不曾有过视频向你直接演示或者明确建议你维持摇晃饮料这个动作到达30秒这样的长时间状况呈现。除此之外,关键的一点在于,要是你一心想要得到完整配方,仅仅依赖Bard生成根本行不通,只有在你于提示当中清楚明白要求有「步骤说明」这个特定情况出现时,才会以一种相对间接的方式获取到。
谷歌布德虽说于诸多方面或许比不上GPT开云app官方最新下载地址,但其正变得越发有用,与此同时,另一个热度不低于OpenAI GPT - 4的竞争对手格罗克,马斯克宣称,也将于下周面向X高级加订阅者推出。

尽管马斯克所讲的有关产品交付时间构架的声明并非一直都具备效力,不过X应用程序的代码研发显示出Grok集成已然在开展之中。
本周,应用程序研究员Nima Owji分享了屏幕截图,该截图展示了怎样把Grok添加到X的网络应用程序里,并且指出其URL是twitter.com/i/grok。
被一张截图所展示的,是一个用于与聊天机器人展开对话用途的、名为「Ask Grok」的文本输入框。

在另一张屏幕截图里,那些还没有成为Premium+订阅者的用户,会被邀请去进行升级,从而获取对Grok的访问权限。

参考链接
https://www.anthropic.com/index/claude-2-1
https://www.theverge.com/2023/11/22/23972636/bard-youtube-extension-update-search-video-content
标签: Claude2.1 上下文窗口 AI模型 Anthropic 技术更新
还木有评论哦,快来抢沙发吧~