绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
通用服务具身智能机器人的研究进展与展望
智猩猩AI新青年讲座具身智能专题 2025/03/26 19:00:00
课程讲师
梁俊卫 香港科技大学(广州) 人工智能学域助理教授、副研究员、博导

香港科技大学(广州)人工智能学域助理教授/副研究员/博士生导师,卡内基梅隆大学计算机博士,百度奖学金(全球10名)、雅虎奖学金、世界人工智能大会云帆奖明日之星得主,研究工作曾被包括美国华盛顿邮报、纽约时报等媒体报道。研究内容包括计算机视觉与具身智能,近五年内于CoRL、ICRA、IROS、CVPR、TPAMI、NeurIPS等国际顶级期刊会议发表论文30余篇,谷歌学术引用量1700余次, h-index 19,常年组织举办CVPR Precognition Workshop;主持国自然青年基金、多项广州市科技局课题、美团机器人研究院、华为等科研项目,并参与科技部国家重点研发计划。

梁俊卫
香港科技大学(广州) 人工智能学域助理教授、副研究员、博导

香港科技大学(广州)人工智能学域助理教授/副研究员/博士生导师,卡内基梅隆大学计算机博士,百度奖学金(全球10名)、雅虎奖学金、世界人工智能大会云帆奖明日之星得主,研究工作曾被包括美国华盛顿邮报、纽约时报等媒体报道。研究内容包括计算机视觉与具身智能,近五年内于CoRL、ICRA、IROS、CVPR、TPAMI、NeurIPS等国际顶级期刊会议发表论文30余篇,谷歌学术引用量1700余次, h-index 19,常年组织举办CVPR Precognition Workshop;主持国自然青年基金、多项广州市科技局课题、美团机器人研究院、华为等科研项目,并参与科技部国家重点研发计划。

课程提纲
  • 1、空间智能:开集3D视觉定位
  • 2、开集目标导航和用于预测人类轨迹的社交导航
  • 3、基于人类视频预训练的机器人操作
  • 4、面向自然语言指令的机器人操作
  • 5、人形机器人整身控制的展望
课程简介

服务机器人是指能为人类或设备完成有用任务的机器人,主要分为家庭服务机器人和商用服务机器人两大类。服务机器人以其应用场景的复杂性、与人交互的密切性和巨大的市场潜力,对智能化升级的需求尤为迫切,也是具身智能重要的载体之一。而通用服务机器人因为需要在多种环境中完成各类服务任务,也正在成为当下机器人的研究热点。

香港科技大学(广州)人工智能学域助理教授、副研究员、博导梁俊卫带领实验室,围绕通用服务具身智能机器人发表一系列成果。其中,多篇论文收录于CVPR 2025等多个顶会。

3月26日晚7点,「智猩猩AI新青年讲座具身智能专题」邀请到梁俊卫教授主讲。梁俊卫教授将以《通用服务具身智能机器人的研究进展与展望》为主题从空间智能、具身导航、具身操作三个方面带来直播讲解,并对人形机器人整身控制进行展望。

首先,梁老师会介绍空间智能方面的研究进展,包括3D视觉定位框架Seeground和开放词汇3D语义分割方法Diff2Scene两项成果。相关论文分别收录于CVPR 2025和ECCV 2024。

Seeground是一种全新的零样本3D视觉定位框架,通过2D VLM完成3D物体定位,无需任何3D标注数据即可在复杂场景中实现精确定位。SeeGround通过透视自适应模块和融合对齐模块两个关键模块解决了现有方法在空间理解方面不足的问题。

Diff2Scene是一种利用文本-图像扩散模型进行开放词汇3D语义分割的创新方法,由CMU联合梁俊卫老师团队、Google DeepMind等提出。该方法无需任何标注的3D数据,即可对3D点云进行语义理解。在ScanNet200数据集上,Diff2Scene将现有方法的准确率提高了12%。

其次,梁老师会介绍具身导航方面的最新研究成果,将解读用于学习实例级导航技能的零样本方法PSL和社交导航强化学习框架Falcon。相关论文分别收录于ECCV 2024和ICRA 2025。

PSL是一种用于学习实例级导航(InstanceNav)技能的零样本方法。该方法引入了一种语义优先的训练策略,以选择具有明确语义监督的目标图像,并放宽奖励函数中严格的视角匹配要求。

与传统的目标导航(ObjectNav)不同,目标导航只要求机器找到一种类型物体,而PSL能够使机器人根据语言目标在当前场景中找到指定的物体,例如“一个黑色皮革制成并位于两个窗户旁边的椅子”。该方法在零样本的ObjectGoal和InstanceGoal导航任务上显著超越了ZSON。

现有的机器人视觉导航研究中普遍没有考虑到场景中人类的存在。而用于社交导航的大规模数据集与强化学习方法Falcon,能够让机器人在导航过程中预测未来行人轨迹,进而提升机器人在人类环境中的安全性。

最后,梁老师会介绍具身操作方面的最新研究成果,主要包括基于人类视频预训练的机器人操作的适应范式和面向自然语言指令的机器人操作方法Σ-agent。相关论文分别收录于CVPR 2025和CoRL 2024。

基于人类视频预训练的机器人操作的适应范式能够解决“人类和机器人之间的差异”所带来的“机器人在操作任务中泛化性不足”的问题。该范式利用人机对比对齐损失,对齐人和机器人视频的语义,以一种参数高效的方式将预训练模型适应于机器人领域。

实验结果表明,该范式在三个不同的基准测试中的25个任务上都有显着的改进,其中涵盖了单任务、语言条件多任务设置,并评估了两个不同的预训练模型。在大型RLBench基准测试中,该适应范式在多个任务上的成功率平均提高了8.9%。

Σ-agent是一种面向自然语言指令的机器人操作方法,能够让机器人根据自然语言指令和视觉观察执行各种操作任务。Σ-agent通过加强视觉-语言和当前-未来状态的表征,让机器人能够更好地理解和区分不同的任务指令。

具体来说,Σ-agent训练框架采用了对比模仿学习策略,使得机器人能更准确地区分多任务中的不同指令。这种学习方式提升了任务执行的准确性,还加快了训练的收敛速度。在RLBench任务中,Σ-agent在只有10个和100个示范训练的情况下,分别超过了SOTA方法5.2%和5.9%。在5个真机操作任务中,Σ-agent实现了62%的平均成功率。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...