Grok1源码解读

作者: 斐然解码分类: 计算机技术发布时间: 2024-03-19 23:39:43 浏览:17151 次

Grok1源码解读

可以宁:
开源的是原始权重，需要等大佬们微调后才能用，然后需要激进量化后才能在高配置PC或Mac上推理。目前最激进的可用量化是Q2也就是2bpw，同样是MoE的最强开源模型Mixtral 8x7b可以量化到14G大小，推理速度相当于4B参数模型；Grok可以量化到80G大小。

【回复】顺便解释一下MoE，它的特点就是本体很大，但真正推理时变身为1/4大小。以Q2量化后的Grok为例，至少需要80G的显存、内存、显存加内存才能装下本体，满足第一个条件能启动（苹果大于80G的统一内存，双3090只有48G纯GPU装不下需要分流到内存，Intel至强或AMD的服务器级主板上个128G内存），第二个条件能有过得去的推理速度，这时候MoE的优势就体现出来了，它每次推理只需要访问20G的权重，哪怕没有显卡只用DDR4内存，也能像个老年人打字一样吐字。
【回复】然后，开源社区需要最少一周才能推出chat&instruct的微调版本（能推理了但320G的权重只能租云算力），再过一周HQQ或者其他组织估计能完成量化，Q2后残存的能力也存疑。总之Grok开源的最大意义是给开源社区提供了一个非常珍贵的练手&试错的对象（太多开源大模型都是llama的衍生体而已），对个人用户意义不大。
【回复】回复 @deerice5 :就可以内存显存一起加载，完全利用不受限
反光的金子:
骗流量的标题党，举报了，8分钟时长能解读个毛线源码，开头还都在扯些都知道的东西。

【回复】回复 @山泥捣浆糊 :噫噫噫完全不好，你指的难不成是七分半那个？太片面了，根本不详细也没讲完全，估计那人她自己就不理解那些源码，估计运行报错都没法解决。
【回复】回复 @山泥捣浆糊 :啊好的我再看看。
道长_我们这里是酒吧:
问下大佬，个人没有8张H100的这种算力，gork怎么玩？

【回复】目前普通人最容易上车的办法就是 mac studio 了, 190GB统一内存价格五万人民币, (从未想过苹果会在某一天成为了最有性价比的选择..[捂脸]
【回复】回复 @是一条没有梦想的咸鱼 :[星星眼][星星眼]谢谢大佬[星星眼][星星眼]我都没注意苹果，光看n卡了[星星眼]
别冲了开卷:
腻嘛看jax看的头大，看不下去了来找解读了

没有昵称的盲目观众:
[doge]我的128g内存已经饥渴难耐。快点量化q4 gguf

【回复】回复 @可以宁 :8x7b 量化4 可以跑到5token/s 8x7b 量化8可以跑到3token/s 都是gguf用6核CPU跑的能体验了。给你推荐个好的up“xp系统用户”他的“机体.exe”精致小巧跑大模型非常好用。
【回复】需要等Q2量化版本，Q4的GGUF差不多160G大小（笑看某人的128G内存[doge]，但有一说一，你这个配置可以横扫开源模型了，有眼光！）可以先试试Mixtral的无损Q8版本，虽然中文拉跨，然后试试这个Q2量化版本，14G，对比一下压缩成这个模样能力损失了多少 Mixtral-8x7B-Instruct-v0.1-hf-attn-4bit-moe-2bitgs8-metaoffload-HQQ
【回复】回复 @没有昵称的盲目观众 :另外，你这个配置可以把TTS&STT搞起来了，长按ctrl键实现语音输入（whisper）语音输出（gpt-sovits）。RAG私有数据库更好玩，但langchain什么的目前还很坑爹，暂时没有好用的集成方案。
一起来玩儿啊:
可以，我第一个看的，想问下在grok项目中，他们用rust做了什么？

【回复】rust写的Kubernetes的资源管理，pod编排等。遗憾的是目前 rust没有用到模型的推理上面的。
zeaven:
能跑起这个模型的机器，价格至少百万起步，属实可怕

编程 Grok1 代码大模型科技最前沿源码解读

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！