Grok开源了!3140亿参数模型,史上最大开源AI

admin AI新闻 4

鱼羊 克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

马斯克说到做到:

旗下大模型Grok现已开源!

Grok开源了!3140亿参数模型,史上最大开源AI-第1张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

用于运行的代码以及具备的模型权重如今已经上线到了GitHub。按照官方所给出的信息来看, 在这一次进行开源的Grok-1是这样一个拥有着3140亿参数的混合专家模型, 它是——。

就是说,这是当前开源模型中参数量最大的一个。

听到那消息刚一出来, Grok - 1的GitHub仓库, 就已经收获了4.5k颗标星, 而且, 这个标星数量还在库库迅猛地往上涨。

Grok开源了!3140亿参数模型,史上最大开源AI-第2张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

表情包们开云app官方最新下载地址开云真人app,开云真人app地址,第一时间被吃瓜群众们热传了起来。

Grok开源了!3140亿参数模型,史上最大开源AI-第3张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

就GPT本Chat而言, 它现身于Grok评论区, 进而开启了与马斯克新一天的斗嘴之行……

Grok开源了!3140亿参数模型,史上最大开源AI-第4张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

那么, 不多说什么了, 来瞧一瞧马斯克此次为了怼OpenAI, 到底拿出了啥真正厉害的东西。

Grok-1说开源就开源

就在此次开源这一行为当中, xAI进行了发布这一动作, 所发布的内容是Grok-1的基本模型权重, 还有网络架构。

专门来讲, 是二零二三年十月那个预训练时期的起初基础模型, 并未针对任何特定的应用, 像是对话方面, 去做微调。

在结构方面, Grok - 1运用了混合专家架构, 也就是MoE架构, 里头含有8个专家, 其总参数量是314B, 也就是3140亿, 在处理Token的时候, 其中会有两个专家被激活, 激活后的参数量为86B。

仅瞧这被激活的参数量, 已然超出了密集模型Llama 2的70B, 就MoE架构方面而言, 把这样的参数量称作庞然大物完全不过分。

Grok开源了!3140亿参数模型,史上最大开源AI-第5张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

然而, 于GitHub页面里, 官方亦给出提示, 鉴于模型规模颇为大(314B参数), 得要有具备充足GPU以及内存的机器方可运行Grok。

这儿MoE层的达成效率并非很高, 挑选这样的达成方式是借以防止在校验模型的正确性之际需自行定义内核, 以确保验证模型的正确性时不需要自定义内核。

模型的权重文件, 是以磁力链接的形式来提供 , 此文件大小, 接近300GB。

Grok开源了!3140亿参数模型,史上最大开源AI-第6张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

并且, 这个所谓的“足够的GPU”, 其要求可不是那种普通程度的高, 在YC平台上, 有网友进行了推测, 要是处于8bit量化的情况的话, 或许需要8块H100。

Grok开源了!3140亿参数模型,史上最大开源AI-第7张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

除了参数量前所未有,在工程架构上,Grok也是另辟蹊径——

没有采用平常常见的Python, 没有采用PyTorch, 也没有采用Tensorflow, 而是选用了Rust编程语言, 还选用了深度学习框架里的新秀JAX。

因而, 于官方通告范围以外, 存在诸多大佬, 借由扒代码这类途径, 揭示出了Grok的更多技术方面的细节。

举例来说, 有一位名为Andrew Kean Gao的人, 此人来自斯坦福大学, 他着重针对Grok的技术细节, 展开了详尽的解释说明。

首先, Grok所采用的并非是固定位置embedding, 而是运用了旋转的embedding方式, 旋转位置的embedding大小为6144, 此大小与输入embedding是相同的。

Grok开源了!3140亿参数模型,史上最大开源AI-第8张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

当然,还有更多的参数信息:

窗口长度为8192tokens,精度为bf16

Tokenizer的词汇表大小是131072, 也就是2的17次方幂, 这和GPT - 4相近。

embedding大小为6144(48×128);

Transformer的层数是64, 每一层里面都有一个解码器层, 这个解码器层含有多头注意力块, 还有密集块。

key value大小为128;

在多头注意力块里, 拥有48个供作查询用处的头, 另有8个是用于KV的, 其中KV的大小为128。

密集块(密集前馈块)扩展因子为8,隐藏层大小为32768。

Grok开源了!3140亿参数模型,史上最大开源AI-第9张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

除去Gao之外, 英伟达的AI科学家Ethan He(何宜晖)表明, 在针对专家系统的处理这一方面, Grok还和另外一个知名的开源MoE模型Mixtral存在差异。

Grok于全部的个数为8的专家均运用了softmax函数, 之后从中挑选出top2专家, 然而Mixtral却是先确定专家而后再施以softmax函数的操作。

Grok开源了!3140亿参数模型,史上最大开源AI-第10张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

提到是否存在更多细节, 这或许取决于官方接下来是否会给出进一步信息, 嗯。

再说了, 有一点值得提及, Grok - 1所采用的是Apache 2.0许可协议, 这意味着, 对于商业使用是友好的。

为怼OpenAI怒而Open

众人都清楚, 马斯克鉴于OpenAI并非处于开放状态, 已然向旧金山高等法院发起诉讼, 依规正式告发OpenAI了。

然而, 那个时候, 马斯克亲自弄的Grok, 它并没有进行开源, 而且, 它仅仅是朝着特定的付费用户去开放的, 如此一来, 难免会被人们质疑存在双标情况。

大概是为了堵上这个bug,马斯克在上周宣布:

本周,xAI将开源Grok。

Grok开源了!3140亿参数模型,史上最大开源AI-第11张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

尽管在时间点方面, 好像呈现出马斯克一贯以来那种迟到的风格, 然而, xAI的这一波Open, 如今看来, 的确并非只是口头上说说而已, 而是实实在在地给网友们带来了一些程度不算厉害的震撼。

Grok开源了!3140亿参数模型,史上最大开源AI-第12张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

有xAI新晋员工感慨说:

这将是激动人心的一年,快系好安全带吧。

Grok开源了!3140亿参数模型,史上最大开源AI-第13张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

有一些人, 已然开始期待, 将Grok当作一个开源的模型, 往大模型竞争的这一池子水里, 再去进一步造成波动。

不过,也并不是每个人都买马斯克的账:

Grok开源了!3140亿参数模型,史上最大开源AI-第14张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

然而, 嘴上说说归嘴上说说, 有着多线同时推进态势的马斯克, 在最近这段时间里, 重要的事情可不单单只有将Grok进行开源这一桩。

马斯克旗下, 身为多公司以及多业务的所谓时间管理大师, 特斯拉才刚刚在全线推出了端到端纯视觉的叫FSD V12的自动驾驶系统, 所有北美车主用户, 借助OTA更新升级, 能够达成所有道路场景里从意定点到意定的点采用AI驾驶方式开车。

SpaceX进行了第三次星舰发射, 这次发射最终没有成功, 然而, SpaceX有着让人从未见过的进展, 向前大大迈出了一步。

推特则开源了推荐算法开云手机入口app下载开云app官方入口网站,然后迎来了一波自然流量新高峰。

人家都是那种, 你行你就上, 不行就别瞎嚷嚷……马斯克可不一样, 他不做这种选择, 一边叫嚷着, 一边付诸行动, 而且还全都做成了。

Grok开源了!3140亿参数模型,史上最大开源AI-第15张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

参考链接:

https://x.ai/blog/grok-os

— 完 —

标签: Grok开源 3140亿参数模型 混合专家模型 马斯克 OpenAI

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~