【硬核科普】清华AI博士教你AI是怎么生成图片和视频的

作者: 漫士沉思录分类: 科学科普 发布时间: 2024-04-26 17:30:00 浏览:257777 次

【硬核科普】清华AI博士教你AI是怎么生成图片和视频的

袭明道人:
我是讲授人工智能课程的大学老师,看了视频非常有启发和收获,简单明了。以后我给学生讲起来会更容易一些。向你学习了!非常感谢!

【回复】回复 @漫士沉思录 : 大佬你9分钟的解释,印证了我自己做的绘画教学视频里自己理解。很开心。[呲牙]
【回复】回复 @6道天魔 : 人脑的思考是怎么实现的,都还没有完全研究明白,怎么能奢望另一个东西做到跟它一样呢,做没做到的你也没法判断啊。所以人工智能有个很经典的鸭子理论,如果一个东西看起来像鸭子,走路像鸭子,叫声像鸭子,那它就是鸭子。具体到你的例子里,你把掌握的信息输入到AI系统里,它得出的结论跟你思考的结果基本符合,那它就是投资专家,你不要纠结它得出结论的过程是不是跟人的思考方式一样
lla啦啦啦啦啦:
我是吉林大学的,最近在跟着导师一起学AI,可以说,UP主讲的知识基本已经涉及到非常前沿的领域,能把一些非常抽象复杂的东西讲的很具体,形象,确实佩服。

【回复】回复 @小老鼠抓猫 :确实,但是对语言要求比较高。所以英语真的是打开更大世界的钥匙
【回复】翻墙,YouTube,GitHub上资源更多
一只大大姜饼人er:
你们不知道的是,我关注up纯属是觉得声音好听(这样的配音 在整个b站也是很少见的

【回复】回复 @漫士沉思录 :语速适中,吐词清晰,语调柔和,情感饱满,不夸张,不做作[打call]这个质量,雀食是B站为数不多的视频配音
【回复】回复 @漫士沉思录 :真的! 假不了一点[doge] (我属于听到ai配音和普通话不标准的果断退出的那种
particleFLOW:
THU属实对diffusion model贡献非常大,走出了yang song,jiaxin shi,jiaming song等人,希望未来能看到up的代表作[脱单doge]

【回复】[跪了]压力上来了,你列举的这些我怎么比[灵魂出窍]
【回复】幽默了,贡献明显的yang和jiaming全是phd期间发的论文,是在Stanford的成果,和THU和关系属于鱼和自行车的关系。你怎么不说他俩的小学对diffusion model的贡献大😂
【回复】回复 @particleFLOW :鱼和自行车其实更贴切,清华厉害不是因为它学术水平多高or教育水平多高,而是因为它招了最好的本科生。你把这批人放在别的学校,然后出国留学,照样能做出好的成果
二零醚酱:
每次玩AI绘画乐趣之一就是看着AI一步一步把画从一张噪声图里“挖”出来的过程……就像米开朗基罗的那句“雕像本来就存在在石头中,我只是把它从石头中放出来”一样神奇

【回复】我对米开朗基罗这句话的理解应该是雕像已经在他脑子里构思好雕刻好了,所以动手只是将它放出来。ai绘画更像是ai自己出结果让你误以为自己的想法就和ai出的结果一样,这其中少了很多自己思考的,变化的过程。
【回复】回复 @丶岚风 :不加控制参数的话纯抽卡那我确实没啥想法[脱单doge][脱单doge],,,其实我想本表述的是一种过程,看着AI慢慢把一张噪声图逐渐变得清晰的过程很有趣,就像小学时候看蚂蚁搬家一样()
【回复】那么你觉得你自己是创造者还是观众呢,比较好奇[鼓掌]
Blue_Bridge:
最简单的理解就是:图片是像素构成的,像素就是数字,AI学习数字之间的关系逻辑就生成图片

DarlingAstronaut:
相当入门了,相当于对原数据分布的随机梯度上升,核心是用神经网络把梯度也就是score function学习出来。大佬之后会考虑涉及score matching以及用随机微分方程建模扩散过程吗?

【回复】回复 @漫士沉思录 :如果出的话我绝对看[打call]
【回复】有这想法,不过估计没人看
【回复】回复 @漫士沉思录 : 更硬核的内容也有受众的,up也可以拓宽一下频道受众面嘛!非常想听UP讲随机微分方程建模相关部分,比如yang song老师的这篇论文 https://arxiv.org/pdf/2011.13456
coolmaint:
我想起了刘慈欣的“诗云”,将所有汉字的排列组合都列出来,那么最好的诗自然也包含在里面,后面要做的就是把这条矿脉找出来。

【回复】回复 @KITAKUMO-北雲 : 和无限猴子本质上是相反的过程。无限猴子是还原现有的莎士比亚诗集,尝试过程是纯随机的、而扩散模型是在给定初始位置的向量空间里找到全新的可用的诗集,重点在于这个寻找的算法,寻找的路径并不是完全随机而是受权重影响的,更高效的,所以可以在可接受的时间内生成图像。
【回复】这不就是无限猴子定理?
钟离戒慈:
ai安全博士, 大概听了一下,感觉这门课放在我国99%大学值3个学分。

【回复】回复 @账户已封禁 :没学分你咋毕业?
【回复】回复 @账户已封禁 : 什么学校连学分都不知道?[脱单doge]
【回复】回复 @账户已封禁 :哪个大学的?连你的本质都搞不清?不得不佩服这些在校大学生一整天都在搞毛[嗑瓜子]
阿叶酱少吃点:
【笔记】 为什么AI能生成图片:先从【扩散模型】说起。一滴墨水扩散到整个水杯中,数学上叫【维纳过程】,物理上叫【布朗运动】。 把很多花粉摆成三个不同的形状,放在特定的地方,让其各自独立扩散运动,一段时间后不论最开始是什么形状,他们都变成了差不多的一团。这样的分布叫【高斯分布】然而,正向扩散的花粉粒子呈现出一团混乱的分布,如若时光倒流反向运动,则粒子会从混乱变成有秩序有方向的运动,继而重建出最开始的结构。于是在任何一个时刻t,我们都可以给空间上的每一个位置画一个向量的箭头,一群向量箭头组成的向量场叫【评分函数】,类似于一个粒子越来越接近初始位置的导航,指引粒子一步步形成最开始的结构。如果知道了每个时间的评分函数,就可让粒子从高斯分布开始,依靠这个导航,靠近最开始的形状,不断重复该过程让时间倒流,此时一团杂乱无章的粒子就神奇的排成了最开始的结构。 而生成一个图片就等价于让杂乱的粒子排成特定的结构队形。 所有看起来真实的照片,就是看它是否在像素空间中满足一个特定的形状结构,在一个流形manifold之上,只有满足了流形的结构特点,翻译出来的图片才是真实有意义的。也就是说只要从空间中的某个位置走到流形之上,你就完成了一个真实图片的生成过程。沿着评分函数在像素空间移动,一点一点去掉原本的噪声,在像素空间中就会越来越接近于真实图片流形的矿脉,最终我们就可以把一团乱麻变成栩栩如生的图片。而Sora能够生成动态视频,本质上是在图像基础上增加了时间维度,也就是说一段视频是由一系列图片组成。Sora除了图像清晰真实,还在时间上形成了出色的连贯性和理解力,例如一只小狗被移动的人挡住之后还在原来的位置。这种每个物品都不会凭空的出现或消失的核心技术难点就叫【长程依赖】

ID小百科:
大佬一看就是浓厚的姚班风格,数理基础极强。现在很多b站AI课程就图一乐,对数理毫不深究

【回复】教程课你是一点不看,看点科普就以偏概全了
【回复】回复 @淼斯基 :教程课讲数理的,十分之一就不错了。九成的就是教你怎么装框架,搭网络
【回复】回复 @淼斯基 :就b站这大多数up的水平,有能力做教程的有多少,还是卖课散播焦虑居多
沫莹西西n:
只是很浅的说说原理,给人一种感觉而已 我最大的疑惑就是评分函数是怎么表示的?或是具体一点的是什么样的? 还有很多一笔带过的词一听就知道其中没那么简单,想听更详细的[大哭]

【回复】评分函数一般表示不成数学表达式,而是用神经网络+score matching方法逼近,不过这个证明过程需要一些本科或一点研究生工科数学基础才能看懂
【回复】图像生成一般来说用的是is或fid,fid是将inception v3的输出部分去除,提取2048维的特征向量,然后在一组真实图像和生成图像之间计算协方差矩阵的度量,距离越小,就意味着生成的图像越接近真实
二阶皛Nikaiyoake:
up的科普真的很好,现在还有在说拼石块的

【回复】它反而更加确证了AI剽窃的事实,任何风格都是规律,透过剽窃艺术家的作品来构建其风格的数学模型,从而用大规模的盗版来消灭原创,这就是AI正在干的事。
【回复】回复 @山旮旯先森 :你只能说这是目前主流的绘画类生成AI干的事。其实在相同领域的发展更多的是类似于图片识别和真实性的生成,这种会比较多一点,比如说现在的辅助驾驶。
点心三:
医学博士 妙手回春 救死扶伤 让大部分人起死回生 提高生活质量 。 AI博士 技术高明 损人利己 让大部分人被AI夺去工作 失去养家糊口的能力 。

迪士尼在逃律师函:
我理解一点了,为什么喂给ai一种图片他就能生成类似的图片,因为喂给的是图片组成的像素rgb数据的规律,有规律可循就可以算出来了[星星眼]

夏和半山:
有一说一,已经很生动形象和结合动画极大程度地降低理解门槛了,真的是很有意义的科普性课程。

bili_844816:
不懂就问,为什么扩散的过程是随机的,但是“他们之前一小会儿的时刻大概在哪”就能知道呢?不应该也是随机的么

【回复】最近刚开始学深度学习,个人理解,因为你是让ai生成指定的视频内容的,而指定的内容,比如生成狗,可能已经通过深度学习形成了狗这种类别的评分函数了
【回复】回复 @bili_844816 :6:25 - 7:25,,,视频里清晰明了的内容,是不是瞎说的自己去看
【回复】回复 @二零醚酱 : 你确定?@漫士沉思录 他是瞎说的吧
终结之谷瀑布:
能把复杂的东西说的简单,需要有更高的水平,以及更菩萨的心肠。

人工智能 科普 扩散模型 sora 万物研究所 万物研究所·春日健康季

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!

更多相关阅读