您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [西北大学&哥伦比亚大学&麻省理工&斯坦福]:基础模型邂逅具身智能体 - 发现报告

基础模型邂逅具身智能体

报告封面

李曼玲Northwestern 云珠·李哥伦比亚 第一部分:动机和概述 Manling Li,西北大学教授 AAAI教程:基础模型遇见具身智能 什么是通才代理人? 图示来源:毛嘉元 模拟和基准测试对人类重要的机器人任务 -1K 任务matterWhat您需要机器人来帮助您吗? 清洁地板? 任务matterWhat您需要机器人来帮助您吗? 熨烫衣物? 任务matterWhat您需要机器人来帮助您吗? 烹饪早餐? 任务matterWhat您需要机器人来帮助您吗? 打开礼物? 任务matterWhat您需要机器人来帮助您吗? 清理一场狂欢派对后的残留? 典型具身智能体任务 “情境决策”是什么? 我们能否将MDP作为指导原则来对“基础模型”进行分类? 让我们回到马尔可夫决策过程(MDPs)。 让我们回到马尔可夫决策过程(MDPs)。 让我们回到马尔可夫决策过程(MDPs)。 让我们回到马尔可夫决策过程(MDPs)。 让我们回到马尔可夫决策过程(MDPs)。 让我们回到马尔可夫决策过程(MDPs)。 让我们回到马尔可夫决策过程(MDPs)。 让我们回到马尔可夫决策过程(MDPs)。 MDP环境:MineCraft MDP环境:Web代理环境 VisualWebBench:在网页理解和接地方面,多模态LLMs发展有多远? https://arxiv.org/pdf/2404.05955 让我们回到马尔可夫决策过程(MDPs)。 让我们回到马尔可夫决策过程(MDPs)。 让我们回到马尔可夫决策过程(MDPs)。 : 观察(渲染的2D图像)环境 : 观察State (3D 资产 & 状态)环境! 50场景 10000对象 让我们回到马尔可夫决策过程(MDPs)。 让我们回到马尔可夫决策过程(MDPs)。 →: 机器人能否学会解决这些任务?行动 让我们回到马尔可夫决策过程(MDPs)。 感知 / 状态估计:o→s 观测!状态估计(资产与状态) 观察(2D渲染场景) 让我们回到马尔可夫决策过程(MDPs)。 让我们回到马尔可夫决策过程(MDPs)。 设置表格。 设置表格。 使用这些板子。 : 定义一个任务? 目标 开始与目标? 哪些属性? !applein冰箱!汉堡in冰箱!水瓶in冰箱!纸张袋oncounter https://behavior.stanford.edu/ 让我们回到马尔可夫决策过程(MDPs)。 让我们回到马尔可夫决策过程(MDPs)。 保持食品 行动轨迹 保持食品 行动轨迹 保持食品 行动轨迹 保持食品 行动轨迹 让我们回到马尔可夫决策过程(MDPs)。 让我们回到马尔可夫决策过程(MDPs)。 奖励模型 让我们回到马尔可夫决策过程(MDPs)。 让我们回到马尔可夫决策过程(MDPs)。 转型模型ot,a→ot+1 \"世界建模\ class切割规则: 全渠道Gibson物理过渡界面 让我们回到马尔可夫决策过程(MDPs)。 https://embodiedqa.org/slides/eqa_matterport.slides.pdf