Grok1源码解读

作者: 斐然解码分类: 计算机技术 发布时间: 2024-03-19 23:39:43 浏览:17151 次

Grok1源码解读

可以宁:
开源的是原始权重,需要等大佬们微调后才能用,然后需要激进量化后才能在高配置PC或Mac上推理。目前最激进的可用量化是Q2也就是2bpw,同样是MoE的最强开源模型Mixtral 8x7b可以量化到14G大小,推理速度相当于4B参数模型;Grok可以量化到80G大小。

【回复】顺便解释一下MoE,它的特点就是本体很大,但真正推理时变身为1/4大小。以Q2量化后的Grok为例,至少需要80G的显存、内存、显存加内存才能装下本体,满足第一个条件能启动(苹果大于80G的统一内存,双3090只有48G纯GPU装不下需要分流到内存,Intel至强或AMD的服务器级主板上个128G内存),第二个条件能有过得去的推理速度,这时候MoE的优势就体现出来了,它每次推理只需要访问20G的权重,哪怕没有显卡只用DDR4内存,也能像个老年人打字一样吐字。
【回复】然后,开源社区需要最少一周才能推出chat&instruct的微调版本(能推理了但320G的权重只能租云算力),再过一周HQQ或者其他组织估计能完成量化,Q2后残存的能力也存疑。总之Grok开源的最大意义是给开源社区提供了一个非常珍贵的练手&试错的对象(太多开源大模型都是llama的衍生体而已),对个人用户意义不大。
【回复】回复 @deerice5 :就可以内存显存一起加载,完全利用不受限
反光的金子:
骗流量的标题党,举报了,8分钟时长能解读个毛线源码,开头还都在扯些都知道的东西。

【回复】回复 @山泥捣浆糊 :噫噫噫完全不好,你指的难不成是七分半那个?太片面了,根本不详细也没讲完全,估计那人她自己就不理解那些源码,估计运行报错都没法解决。
【回复】回复 @山泥捣浆糊 :啊好的我再看看。
道长_我们这里是酒吧:
问下大佬,个人没有8张H100的这种算力,gork怎么玩?

【回复】目前普通人最容易上车的办法就是 mac studio 了, 190GB统一内存价格五万人民币, (从未想过苹果会在某一天成为了最有性价比的选择..[捂脸]
【回复】回复 @是一条没有梦想的咸鱼 :[星星眼][星星眼]谢谢大佬[星星眼][星星眼]我都没注意苹果,光看n卡了[星星眼]
别冲了开卷:
腻嘛看jax看的头大,看不下去了来找解读了

没有昵称的盲目观众:
[doge]我的128g内存已经饥渴难耐。快点量化q4 gguf

【回复】回复 @可以宁 :8x7b 量化4 可以跑到5token/s 8x7b 量化8可以跑到3token/s 都是gguf用6核CPU跑的 能体验了。 给你推荐个好的up“xp系统用户”他的“机体.exe”精致小巧跑大模型非常好用。
【回复】需要等Q2量化版本,Q4的GGUF差不多160G大小(笑看某人的128G内存[doge],但有一说一,你这个配置可以横扫开源模型了,有眼光!)可以先试试Mixtral的无损Q8版本,虽然中文拉跨,然后试试这个Q2量化版本,14G,对比一下压缩成这个模样能力损失了多少 Mixtral-8x7B-Instruct-v0.1-hf-attn-4bit-moe-2bitgs8-metaoffload-HQQ
【回复】回复 @没有昵称的盲目观众 :另外,你这个配置可以把TTS&STT搞起来了,长按ctrl键实现语音输入(whisper)语音输出(gpt-sovits)。RAG私有数据库更好玩,但langchain什么的目前还很坑爹,暂时没有好用的集成方案。
一起来玩儿啊:
可以,我第一个看的,想问下在grok项目中,他们用rust做了什么?

【回复】rust写的Kubernetes的资源管理,pod编排等。遗憾的是目前 rust没有用到模型的推理上面的。
zeaven:
能跑起这个模型的机器,价格至少百万起步,属实可怕

编程 Grok1 代码 大模型 科技最前沿 源码解读

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!