我们成功了!把多模态大模型和机械臂结合到一起,效果很惊艳!

作者: ReadAir-LAB分类: 数码 发布时间: 2024-03-26 08:40:53 浏览:31313 次

我们成功了!把多模态大模型和机械臂结合到一起,效果很惊艳!

闪电狮:
大概猜一下原理,语音转文字,文字给LLM提取指令,调用Open-Vocabulary的物体检测模型得到边界框,直接映射到平面上的坐标,根据坐标让机械臂去抓取。 这边面临的几个问题: 1.机械臂抓取轨迹不自然,每次操作前都需要先回到初始位置。我猜可能是为了在移动过程中碰到其他的东西,如果要实现更自然的效果,需要加入障碍物检测模型。 2.对于物品的形状有严格要求,视频中可以看出只是根据物品的边界框抓取,如果遇到不规则形态的物体,这种简单的策略就会面临考验。 3.视频中仅提供了平面上物体的抓取,但如果要进行3D空间中的抓取,则需要使用激光雷达等其他距离估算方案。 另外视频中演示的都是小型物体,如果要搬动更大的东西以及触摸易碎的东西则需要更进一步的努力(比如说拿起一台手机) 具体使用模型,这个选择很多,基本的语音转文字和文字转语音的模型,用微软的就可以。 大语言模型可以直接用GPT的接口。 开放词汇物体检测模型可以用YOLO-World

【回复】后面几个不是什么问题,都有很多成熟的解决方案,1.moveit自带的轨迹规划和避障算法就够了,2.目标分割和目标识别算法对什么样子和形状的物体识别都没什么问题,3. 6D姿态检测做抓取位资计算也很成熟了。视频里就是使用了一个大语言模型做了交互手段,其他都是其他的成熟的解决方案,多模态也没用上,就算最先进的视觉分割大模型SAM,也没有对应训练的小模型maskrcnn好用
【回复】大模型用的是 Qwen-VL-Max ?
21十年12:
太多人在研究了,估计开发会更快了,10年后脑机接口控制机械臂轮椅还有人工智能基本能普及了,搞不好还会有纳米技术延缓衰老

【回复】回复 @林北请你挑塞 :五十年不知道行不行,但是十年我觉得肯定不行,和自动驾驶L5一样的营销罢了
水连珠Tech:
我用claude3和gpt4都试过,如果直接把机械臂拍到的图像传给它分析,大模型的臆想还是很严重的,经常能给出乱七八糟的坐标。所以我很好奇,这个是怎么实现的,是事先有标注了标准图像吗?

【回复】回复 @水连珠Tech :OpenCV。GPT是语言大模型;用语言大模型做这个项目,也只是让他去接收坐标和语音的信息,去执行设定好的机械臂接口;不是全扔给大模型,还是要有标准和接口的
【回复】回复 @ReadAir-LAB :所以是saycan和vila之类训练好技能库让llm决策?
【回复】回复 @水连珠Tech :YOLO很擅长吧
吴涛a:
这个能直接应用到工厂吗?抓取上下料工件?

【回复】有啊,钢材磨具,末端直接用吸铁石的!我之前见过一个公司在用
【回复】理论上可以,产品化还有距离
【回复】单纯抓工件的现在有,个人觉得没必要加大模型
闪电狮:
计算机视觉发展的势头太猛了,三年前谁能想到今天我们已经有这么好用的Open-Vocabulary物体识别模型了。

今天发NeurIPS了吗:
用一般物体检测模型+CLIP类小模型也就能效果不错了(语音处理没算)。我猜视频里思路是物体检测模型截出各个物体的小图(同时得到物理坐标),多模态大模型根据命令在其中选出一个小图,机械臂根据小图坐标抓取。 感觉这种任务作为大学生的小组作业/竞赛等(学习型而不求回报)刚刚好,但是在日常生活中要想成为产品,暂时没有合适的生态位。俯视图的物体检测可能也会有些问题,比如碗从上往下看的形状,不一定能被认为是个碗;以及更加扭曲的命令(比如“抓取最小的圆形的东西”)效果上也许有折扣

【回复】大佬也做一个,试试各种API的坑,一个深度相机SDK就够你玩几天
XniShou123:
半年前就有论文用多模态大模型了吧[吃瓜]

【回复】回复 @特伦不太苏 : 重点是“用多模态大模型”在机械臂上啊。我可是搜过了,到2023年中才有,所以我才敢评论的[吃瓜]
【回复】回复 @XniShou123 :你一检索就能22年的mm啊😂
【回复】回复 @特伦不太苏 :大佬你详细说说呗[吃瓜]
鱼安安_Monody:
多模态大模型是什么?是哪个领域的知识呢

大帅来了快看:
机器人真正关键的还是它的关节, 关节所用的动力结构决定了它是否能低自重高负载, 软件方面前年开始感觉就很多开始对于这种深度学习的实际应用场景了. 那天看了一家公司过来演示他们的协作机器人, 才发现关节都是自己研发生产的, 其它公司都是采购他们的关节

风臊少年:
你好,我想租用你这个机械臂,用于展示,请加我微信xihaijie

折兮故里:
做了个比较简陋的,没有视觉,不过有语音

【回复】回复 @哇呜2077 :主要还是机械臂,我是借的老师的

机械 人工智能 黑科技 极客 模型 机器人 多模态大模型 机械臂 大模型 发明创造

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!