【官方双语】GPT是什么?直观解释Transformer | 深度学习第5章

作者: 3Blue1Brown分类: 科学科普 发布时间: 2024-04-30 19:00:00 浏览:274218 次

【官方双语】GPT是什么?直观解释Transformer | 深度学习第5章

叽蛛:
终于发噜[星星眼]官号每次都好慢,你们还缺人翻译不

【回复】回复 @牧羊人mier : 能力越强水平越高的人只会越忙。
【回复】回复 @數心 :缺人的话可以再招些呀[呲牙]
寿司屋的营业:
既然是前排那我就推荐一个 LLM 的可视化教学网站吧。图和动画做得很好,作为入门科普很棒(〜 ̄△ ̄)〜 https://bbycroft.net/llm

【回复】这个看着很炫,但是看不懂呢(´;ω;`)
【回复】回复 @乌非鸟 :博客里面有个人简介,是一个大佬做的
【回复】方便问问这个博客的网站是自己搭建的吗
TetraCepra:
贰鼠太忙了吧,草,真理元素和3B1B等等N头跑

另一只独酌流觞:
所以,既然线性代数如此重要,而计算矩阵乘法或者行列式也需要大量技巧和工作量,为啥高考20题不能用线代取代功能相似的圆锥曲线,建议高考考纲添加线性代数,remove圆锥曲线。省得大部分大学生在对线代一点概念都没有的情况下一学期甚至一天速通[doge]

【回复】圆锥曲线也是线性代数,是二次型[doge]
【回复】线代的内容起码顶的上高中两本半课本的容量了,况且这部分很多高中老师是不懂的
【回复】高考是选拔性考试,你学什么根本不重要,从上大学后还有一轮通识课教育就可以看得出来。 实际上你初中毕业直接接大学物理、高等数学这些课根本没问题、
家夜寒城无人:
想不到吧,我在学英语app里学数学,还带翻译文章

【回复】回复 @Autination :每日英语听力
Backshall:
吴恩达+李宏毅+李沐+3B1B,足够初学者对AI达到相当程度的理解。需要的数学基础是线代+微积分+概率论知识,基本大学水平够了

【回复】吴恩达能看完就阿恩了,我是浅尝辄止了
Fireale焰实:
[打call][打call][打call]虽然但是隔壁的翻译出了快一个月了(

【回复】回复 @WekFer : b站其它人的翻译
蒙古国海军提督:
这么看来汉语这种高度分析性的语言特别适合于训练语义

【回复】这时候我就不得不提弱智吧了(
【回复】没啥合不合适的,机器学习又不是学不会时态或者人称等等产生的词形变化
【回复】然而中文语料的质量……
jimlol:
数据科学专业读研的表示很亲切[doge],现在整个实验室都移到大模型相关上了

【回复】回复 @紫飞雪漫兰小阳光 :复旦
【回复】这个专业和深度学习太契合了[吃瓜]
【回复】回复 @jimlol :嘿嘿校友你好
瀚海才不是海:
0:00 - 预测,采样,重复:预训练/生成式/Transformer模型 3:03 - Transformer 的内部结构 6:36 - 本期总述 7:20 - 深度学习的大框架 12:27 - GPT的第一层:词嵌入为向量(embedding) 18:25 - 嵌入空间不仅代表词,还能包含上下文信息 20:22 - GPT的最后一层:向量解码为词(Unembedding) 22:22 - 带温度的 Softmax 函数 26:03 - 下期预告:深入注意力机制

小驹佩吉:
视频的可视化好赞。还想深入一点的话,深度学习讲中文的老师强烈推荐李宏毅,我称之为入门级深度学习课程神级的老师。

【回复】回复 @Louis翔 :那个是李航老师,北大的
【回复】回复 @扶苏bibili :如果想看b站上的那就直接沐神(李沐),教你啃论文
【回复】回复 @扶苏bibili :他是台大的老师,b站有搬运的课程,你有能力就去他自己的主页看,那里有整理好的历年课程课件啥的
千叶秦风:
这个科普水平低于3B1B之前的作品啊?也可能是我累得要睡着了Orz总体上还是不错的,就是需要线代知识,至少对向量之间的关系有一定感性认知。 单词向量化(用一组数来表示一个词),然后含义相似的词对应的向量点积比较大,这个好理解。 15:00开始展示了一些向量(男)-向量(女)≈向量(国王)-向量(皇后),这个就比较强大了。 还会根据之前2048个词来改变下一个输出的可能性,这样就避免了一些过短的拟合。 呃,求概率的softmax函数居然就是统计热力学里的配分函数……哈哈哈然后真的有温度因子,不允许超过2 K。那确实,高温下概率都差不多。

【回复】无恶意,但是感觉层主确实是在“累得要睡着”的时候打下的这些文字[妙啊]
【回复】如果你想看更高深的数学知识,那确实不该在深度学习里面找
小五测谎仪:
德国 - 日本 + 寿司的结果可能是指将德国的元素减去日本的影响,然后加上寿司这一日本美食的概念。这可能意味着在德国享受寿司,或者是德国对寿司的独特诠释和风味。在德国,寿司已经变得非常流行,很多超市甚至提供制作寿司所需的材料。寿司在德国的流行也反映了当地人对健康饮食和有机食品越来越重视的趋势。 如果你对寿司的历史和种类感兴趣,可以了解一下寿司的起源和它在日本文化中的重要性。寿司起源于公元前4世纪左右的东南亚,最初是用来保存鱼肉的一种发酵食品。经过长时间的演变,寿司发展成了今天我们熟知的形式,包括握寿司、卷寿司、散寿司等多种类型。 总的来说,德国 - 日本 + 寿司 = 可能代表了一种跨文化的美食体验,即在德国享受具有日本传统特色的寿司。🍣

摩于:
attention层理解文本,并计算最后一个词在受到文本上下文影响后的嵌入特征值,嵌入特征值与解嵌入矩阵运算再经过softmax函数产生下一个词的概率分布。

哞哞的daddy是个好榜样:
感觉已经get到了为什么规模和深度能制造智能的原因了,从理论上来说,一个维度足够高的网络,就能出现所谓的智能,只要表意向量足够复杂,就能把含义表示清楚,如果规模和深度超过了人脑,理论上就会诞生比人类更高级的智能

是夜喵不是夜猫:
GPT这么强,想必GFW也是一项能改变世界的发明吧👍🏻

【回复】一个多月前才看到有人用Go复刻了GFW还开源了[滑稽]README里面说每个人都有建墙的自由,输出拉满了
terestX:
谢谢 作为劳动者也得劳动的打工人,这是最特别的五一礼物

Marshall2157:
如果这个视频是ai生成解释ai的,将是绝杀

【回复】人类都还不能解释自己为什么能思考[doge]
短暂:
好难,这玩意估计得多看几次才能看懂

【回复】回复 @短暂 :现在有很多用ai去预测蛋白质结构的,比如图神经网络
【回复】这玩意不是多看几遍,是看不懂的去学基础课程
【回复】回复 @短暂 : ai的出现和计算机一样,只是为了节省时间提高效率而已,计算机能出来的人也能出来,只是缩短了时间,现在是在证明理论的,所以除了技术大爆炸,ai计算在这方面的共享不会很大的,而且需要耗费很大的算力和资源,对于种族的可持续发展有影响的,现在不会去做的,现在只会一点点的从底层重构知识化去缩短整个族群的知识累积,然后由人类去解决这些问题,如果计算机可以解决人类不能想到的问题才是最可怕的,以现在的科技而言,计算机的超越性对于人类而言就是降维打击了

机器学习 深度学习 GPT 知识一起学

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!

更多相关阅读