顾佩华:《具身智能:AI从数字空间迈向物理世界的技术跃迁》

   发布时间: 2026-02-03    访问次数: 10

摘  要:202211ChatGPT线以来,大语言模型快速发展,人工智能技术正由以信息处理为主的数字空间智能,加速迈向以机器人和自主系统为载体的具身智能形态。与离身数字智能不同,具身智能通过感知、决策与物理执行的深度耦合,直接介入真实工程场景,其技术演进路径、工程不确定性与社会影响呈现出显著新特征。本文梳理了具身智能从控制论、行为主义机器人学到大模型驱动阶段的关键技术跃迁,分析了其在复杂环境中面临的可靠性、长尾问题与失败成本,指出具身智能的发展正在重塑工程实践的能力边界与责任边界。在此基础上,文章进一步讨论了具身智能背景下工程教育在多学科能力结构、课程体系与工程伦理培养方面面临的转型要求,强调工程人才培养应同步强化物理世界理解、系统工程意识与责任导向思维,以回应智能时代工程实践提出的新挑战。

关键词:具身智能  人工智能  工程教育  工程伦理  系统工程


一、引言


(一)定义与背景

在过去几年中,人工智能(AI)的爆发式发展主要集中在以大语言模型(LLM)为代表的数字智能(Digital Intelligence)上。虽然这些模型在逻辑推理、文本生成和艺术创作领域展现了惊人的能力,但它们本质上是存在于数字空间中,通过处理海量数字符号来模拟智慧。

具身智能是指将先进的AI算法(大脑)集成到具有物理形态的载体(身体)中,使其在与环境(场景)的动态交互中产生智能。其核心要素可以概括为以下“三位一体”的架构。

1.大脑(Brain):负责高层逻辑推理、任务分解与决策。2025年的主流架构已演进为“视觉-语言-动作”(VLA)大模型,能够直接将人类的自然语言指令转化为机器人的动作序列[1-3]。

2.身体(Body):包含各类传感器(如激光雷达、触觉电子皮肤)和执行器(如灵巧手、电机驱动器)。物理形态决定了智能体能力的边界——人形机器人擅于通用交互,而轮式机器人则长于物流配送。

3.环境(Environment):物理世界是具身智能的学习场所。智能体通过“感知-行动-反馈”的闭环,在不断地试错中习得物理规律。

具身(Embodiment)的概念源于哲学和认知科学。其主张智能并非独立于身体存在的逻辑运算,而是由身体的物理属性及其与环境的交互方式塑造的[4-10]。例如,人类对“沉重”或“光滑”的理解,并非来自词典定义,而是在抓取物体时的肌肉张力与触觉反馈中产生的。


(二)数字智能与具身智能的本质区别


要理解具身智能的重要性,必须将其与以ChatGPT为代表的离身智能进行对比

1.符号接地问题(Symbol Grounding Problem):数字智能处理的是符号间的统计关系,它知道苹果这个词常出现在之后,但它不知道苹果在人嘴中的真实感觉。具身智能则通过真实的感官输入,将抽象符号接地到物理现实中[9,11,12]

2.莫拉维克悖论(Moravec's Paradox):计算机可以轻松击败围棋世界冠军,却很难像岁小孩一样在乱石堆中平稳行走。具身智能正是为了攻克这些对人类来说极度简单、对机器来说却极度困难的物理任务[13]

3.交互模式:离身智能是被动的数据处理者;而具身智能是主动的探索者,它可以通过移动身体来改变视角,通过操作物体来测试假设。


(三)为什么具身智能是通往AGI的必经之路


2025年的学术讨论过程中,具身智能被视为通向通用人工智能(Artificial General IntelligenceAGI)的关键之一,其主要原因包括。

1.物理常识的获得真正的AGI必须具备物理直觉(World Models[14-16]。只有通过在三维空间中的实际操作,AI才能理解物体因果逻辑(如:推碗会导致碗掉落,液体会流出),这是仅靠阅读文本无法达到的深度。

2.数据效率的飞跃:数字智能依赖数以万亿计的文本数据,而具身智能可以通过主动学习在少量实验中获得高质量的物理经验,实现从海量数据精炼经验的转化。

3.社会化协作:AGI需要具备在人类社会环境中共同生活的能力。只有具备物理实体的机器人,才能学习人类的手势、表情和空间边界感,实现真正意义上的社交智能[17-19]

(四)战略重要性:大国博弈的新高地


2025年,具身智能已不仅是技术竞赛,更是国家战略实力的体现。

1.国家战略布局:2025年中国《政府工作报告》中,具身智能首次被列入未来产业重点培育清单。中国正利用其强大的制造业供应链优势,在人形机器人领域实现对传统科技的加速发展与

2.经济转型的引擎:面对全球性的劳动力短缺和人口老龄化,具身智能应该是工业4.0终解决方案。从柔性制造到高端康养,具身智能体有望成为人类历史上迄今为止最高效的生产工具。

3.地缘政治影响:谁先掌握了低成本、高性能的具身智能技术,谁就掌握了未来全球产业链的核心话语权。美国、欧洲、中国均在2024-2025年加大了对具身智能实验室及芯片研发方面的投入。


(五)迈向智能进化的新阶段


如果说互联网实现了信息的互联,数字智能实现了知识学习,那么具身智能实现能力的物化交流。本章定义的不仅是一个学科方向,更是一种新的智能观:智能不再是冰冷的算法,而是有温度、有实体、能感知的数字生命


二、具身智能的历史发展与重要里程碑


具身智能(Embodied AI)并非一个横空出世的新词。从20世纪中叶计算机科学诞生之初,关于机器如何获得智能的争论就从未停止。纵观其发展历程,这是一部从逻辑推理行为反馈,再到数据驱动,最后迈向通用物理大脑过程。本章将深入探讨关键的时间节点、技术突破及其背后的逻辑与分析


(一)AI史前时代:控制论与“电子乌龟”(1940s-1950s)


在数字计算机大规模普及之前,具身智能萌芽根植于控制论-Cybernetics[20]

1.图灵的远见:1950年,艾伦·图灵在著名的《计算机器与智能》中提到了两种路径:一种是模仿成人的抽象逻辑,另一种是模仿小孩,给机器一个身体,让它在与环境的互动中学习。这被认为是具身智能最早的学术思想雏形[21]

2.瓦尔特Walter乌龟tortoises1950):英国神经学家格雷·瓦尔特(Grey Walter)制造了两个名为“Elmer”“Elsie”的自主机器人。这些被称为电子乌龟的设备仅通过简单的模拟电路(模拟神经元)就实现了避障、趋光和自动寻找充电桩的行为[22,23]

3.里程碑意义:这些研究证明了不需要复杂的中心处理器,仅靠传感器与执行器之间的物理反馈循环,就能产生类似生物的智能行为。


(二)逻辑主义的巅峰与困境:Shakey时代(1960s-1970s)


随着数字计算机的崛起,AI领域进入了符号主义-Symbolicism占据统治地位的时代。

1.Shakey机器人(1966):斯坦福研究院(SRI)研发的Shakey可能是历史上第一个真正意义上的具身智能系统。它配备了电视摄像头、测距仪和碰撞传感器,并运行着名为STRIPS的逻辑规划器[24,25]

工作模式:感知环境建立内部世界地图逻辑推理规划路径执行的完整闭环[24,25]

局限性:Shakey身体极其笨重,移动一米往往需要思考数小时。它对环境的要求极高,一旦光线变化或物体移动,系统就会崩溃[25]

2.符号接地问题(Symbol Grounding Problem):这一时期的失败让研究者意识到纯粹的逻辑符号(如代码中的“APPLE”)如果不与物理感官(红色的像素、圆形的触感)相连接,机器就永远无法真正理解现实世界[9,11,12]


(三)行为主义革命:布鲁克斯与“无脑智能”(1980s-1990s)


1980年代后期,面对符号主义的停滞,MIT的罗德尼·布鲁克斯(Rodney Brooks)发表了具有挑战性的论文《没有表示(表征)的智能》(Intelligence Without Representation[26]

1.包含架构(Subsumption Architecture):布鲁克斯认为,复杂的生物智能(如昆虫)并不依赖建立世界地图。他设计了一种层级化的控制系统:底层负责避障中层负责徘徊高层负责探索每一层直接与环境交互,高层可以抑制低层[26,27]

2.里程碑意义:这种反应式机器人学抛弃了繁琐的中心化建模,主张世界就是它自己最好的模型[24]这一具身/情境化智能思想,为火星探测器旅居者号所采用的反应式、自主导航与鲁棒系统设计提供了重要理论背景与方法论支撑,帮助促成旅居者号的成功,也为后来风靡全球的iRobot扫地机器人的诞生起到了促进作用[13,26,27]


(四)具身认知假说的确立(1990s-2000s)


在技术演进的同时,认知科学也完成了关键的理论构建。

1.《具身心智》(1991):瓦雷拉(Varela)等人的著作标志着具身认知假说的正式形成。他们提出人类的思维不是在大脑里运行的抽象算法,而是深受身体感官和运动能力塑造的[5]

2.认知语义学:莱考夫(Lakoff)提出,人类甚至连高尚”“沉重这种抽象词汇,都是基于身体在重力场中的物理体验[7]。这为后来具身智能追求多模态理解提供了哲学依据。


(五)深度学习与强化学习的融合(2010s-2021)


进入21世纪第二个十年,大数据算力和深度神经网络改变了具身智能的感知层。

1.端到端学习(End-to-End Learning):研究者开始尝试不再手动编写避障规则,而是通过深度强化学习Deep Reinforcement Learning,Deep RL让机器人自主学习[28-30]

2.Google机械臂农场2016):Google部署了数十台机械臂进行大规模并行试验(Arm Farm),通过数百万次的尝试,机器人学会了如何抓取各种形状、材质各异的物体。其核心在于Q-Learning一种核心的强化学习算法及其变体算法的应用[31,32]

3.Sim2Real(仿真到现实)的突破:研究者发现,如果在仿真环境(如MuJoCo,Gazebo)中加入域随机化(Domain Randomization[33]即随机改变重力、光照、摩擦力训练出的模型在迁移到真实物理世界时会表现出极强的鲁棒性[34]

(六)大模型与通用具身智能的曙光(2022-2025)


这是具身智能历史上令人振奋的时期,标志着从专用技能通用技能的跨越。

1.RT系列(Robotics Transformer):2022GoogleRT-12023年的RT-2标志着VLAVision-Language-Action范式的确立[3,35]

RT-2的突破:它将互联网规模的图像-文本训练与机器人动作数据融合。这使得机器人第一次表现出了常识泛化能力,例如:即使没见过某个恐龙玩具,但如果指令是捡起灭绝的动物,它能准确执行[3]

2.人形机器人的爆发(2024):

Tesla Optimus:展示了基于端到端神经网络的全身协调运动。

Figure AI:OpenAI合作,实现了机器人一边整理桌面,一边与人进行逻辑流畅的对话,解决了长久以来的高层规划底层控制的断层。

3.2025—被认为是世界模型(World Models)元年:Sora等视频生成技术为代表的物理模拟引擎被引入具身智能。现在的智能体不再只是模仿动作,而是学会了预测物理直觉Physics Intuition[14-16]。当机器人看到一个玻璃杯边缘,它的大脑会模拟推过去会碎的未来画面。


(七)小结


1950瓦尔特的模拟电路乌龟到2025年拥有具身世界预测能力的人形机器人,具身智能经历了从无脑有脑,再到有身的螺旋式发展过程。

1950s发现了反馈的力量。

1980s意识到身体比逻辑更重要。

2010s利用感知大爆发解决了的问题。

2020s通过大模型解决了的问题。

当前的具身智能,正处于从实验室研究转化为生产力的重要转折时期根据科技和工业发展的历史经验,可以预测:只有当智能体真正扎根于物理世界,构建完备的世界模型,才能让具身智能获得真正环境理解力(Grounded Understanding[9,14-16]


三、2025具身智能的研究与应用现状综述


进入2025年,具身智能(Embodied AI)已正式跨越了从实验室概念产业实现的临界点。如果说2023年是具身智能的启蒙期,2024年是其原型期,那么2025年则是其系统化集成与规模化应用之年。本章将从核心算法范式、仿真训练技术、关键硬件突破以及多行业应用四个维度,深度剖析当下的研究与应用场景


(一)核心研究范式:从“指令的跟随”到“物理的理解”


2025年具身智能研究的显著特征是基础大模型(Foundation Models)与物理实体控制的深度耦合

1.VLA模型的全面统治:大脑与小脑的统一

2025年,视觉-语言-动作(Vision-Language-Action,VLA)模型已成为具身智能的常用架构。这种模型(如GoogleRT-3OpenAIGobi等)打破了传统机器人学中感知、规划、控制相互独立的模块化桎梏[3,35]

端到端决策:现在的模型不再需要通过中间指令进行转换,而是直接将摄像头捕获的图像流和人类的自然语言指令映射为高频的电机控制向量(Action Tokens)。其基本逻辑可以表示为[35]

语义理解与物理接地的深度结合:2025年的模型已具备极强的零样本(Zero-shot)泛化能力。例如,当人类下达帮我清理洒出的咖啡指令时,机器人不仅能通过语言模型理解清理的含义,还能通过视觉模型识别液体在桌面的蔓延范围,并调用拿抹布擦拭这两个物理技能[1-3]

2.世界模型(World Models):赋予机器人物理直觉

2025年具身智能研究重点是具身世界模型。受到生成式视频模型(如Sora)的启发,研究者发现通过在海量视频数据上进行训练,AI可以学习到物理世界的演化规律[14-16,36]

因果预测:现在的智能体在采取行动前,会在内部进行心理模拟。如果机器人准备抓取一个易碎的玻璃杯,它的世界模型会预测出不同的握力可能导致的结果——是安全拿起,还是由于力量过大导致破碎[14-16]

扩散策略(Diffusion Policy):2025年,扩散概率模型在动作生成中得到了广泛应用。相比于传统的强化学习,扩散策略生成的动作轨迹更加平滑且具有多模态性,能够有效处理复杂的灵巧操作任务,如穿针引线或剥鸡蛋等机器人的高难度动作


(二)仿真与数据:数字孪生与“数据工厂”


具身智能的燃料是交互数据。在2025年,获取这些数据的方式发生了革命性的变化。

1.仿真到现实(Sim2Real)的无损迁移

2025年,仿真技术(如NVIDIA Isaac Sim 5.0, Meta Habitat 3.0)的物理逼真度已达到微米级[37,38]

GPU大规模并行训练研究者现在可以在数千个GPU上并行大规模仿真环境,进行高频率的机器人策略训练。这种“压缩时间”的技术使得机器人可以在几小时内积累人类需要多年才能获得的交互经验。近期Google Cloud推出的新一代TPU,有望进一步缩短大模型的训练时间。

域随机化(Domain Randomization)的极致应用:通过随机改变仿真环境中的摩擦力、重力常数、传感器噪声和光照模型,智能体被迫学习极其鲁棒的特征,从而使得仿真中训练的策略在部署到真实硬件时,成功率从2022年的60%提升到了2025年的98%以上[34]

2.具身大数据集:Open X-Embodiment 2.0

2025年,学术界和工业界共同构建了类似于计算机视觉领域ImageNet的具身大数据库[39]

多模态数据集:该数据集不仅包含视频,还包含高精度的触觉反馈流、关节力矩数据以及环境的3D点云信息[39]

跨具身泛化:研究发现,在四足机器人上训练的导航策略,经过微调后可以迅速迁移到双足机器人上,这种跨物种的知识迁移极大地降低了新形态机器人的开发成本[39]


(三)硬件迭代:智能体的“钢筋骨架”与“敏感肌肤”


具身智能的成功离不开硬件的迭代。2025年,机器人硬件在功率密度、能量效率和感知灵敏度上取得了长足进步。

1.电子皮肤与灵巧手

多模态触觉:GelSight触觉传感器和基于柔性压电材料的电子皮肤E-Skin已成为标配。这使得机器人能够通过触觉识别物体的材质(如区分丝绸和棉布)、硬度,甚至能感知微弱的风速变化,这些能力在完成家庭环境中的工作如叠衣服、拿取柔软水果等非常重要[40-42]

多自由度灵巧手:2025年的人形机器人(如Figure 02,Optimus Gen-3)普遍配备了22个以上自由度的灵巧手[43,44]

2.高能量密度执行器与续航

集成电关节:2025年的电机扭矩密度提升了40%,且实现了减速器、电机、编码器和驱动器的高集成度。

半固态电池应用:随着电池技术的突破,人形机器人的续航时间已从2023年的1-2小时提升到了2025年的6-8小时,基本满足了一个工作班次的需求。


(四)行业应用现状:从垂直领域到通用场景


2025年,具身智能已在五个关键领域实现了规模化部署。

1.智慧工厂与柔性制造

传统的工业机器人普遍执行单一任务,而2025年的具身协作机器人实现了一定的柔性

非结构化任务:在汽车总装线上,机器人现能自主处理各种乱序堆放的线束连接,利用视觉和触觉反馈进行精确的插接,这任务在两年前还需要大量的人工操作

案例:某全球领先车企已在其总装车间部署了超过500台人形机器人,通过VLA模型,这些机器人能在接到口头指令后,几分钟内更换工作岗位并适应新的装配工序。

2.智能仓储与货到人工作形态

AMR与灵巧搬运:2025年的仓库不再仅仅是移动底盘。具备机械臂的复合型移动机器人能够自主识别破损包装、处理散装小件商品

效率数据:根据2025年物流行业报告,引入具身智能机器人后,大型分拣中心的整体作业效率提升了210%,差错率降低了99.5%

3.特种巡检与危险作业

极端环境下的自主:2025年,具身智能四足机器人在电力巡检、油气平台巡逻中实现了100%的自主化。

灾难救援:具备具身能力的机器人在废墟中利用3D视觉和多模态语义地图,自主寻找幸存者并评估建筑结构的安全性发挥重要作用

4.家庭服务与高端康养

这是具身智能潜力市场。

情感与生活助理:2025年,具备自然语言交互能力的陪伴机器人已进入部分中高收入家庭。它们能帮老人拿药、通过观察老人的步态预警跌倒风险,并利用大模型进行心理疏导。

难点突破:针对家庭环境的度复杂性,2025年的研究重点转向了隐私保护下的本地推理,确保家庭监控数据不离开本地网关。


(五)全球竞争格局与标准化进程


1.逐步形成中美两强引领的格局

2025年,全球具身智能形成了以中国和美国为核心的两大产业集群[45,46]

美国优势:强在核心算法(OpenAI,DeepMind,NVIDIA)和顶层架构。

中国优势:强在全产业链供应链(减速器、电机、传感器)和海量的应用场景落地。宇树(Unitree)、傅利叶(Fourier)等公司在人形机器人出货量上已占据全球半数以上市场。

2.标准化与评测体系

2025年初,国际标准化组织发布了ISO/EAI-2025标准,明确了具身智能体的安全性评价指标、数据格式标准和通用能力测试集(Robot-Bench)。标志着具身智能从各家自研进入了标准化竞争的新发展阶段[45]


(六)小结


2025年的具身智能现状可以用数字大脑渐成熟具身智能快速进化来简单概括。研究界正在通过世界模型攻克物理常识的防线,而应用界则在工业和物流领域找到了实实在在的盈利点。

然而,尽管进步令人鼓舞,我们依然面临着长尾任务(Edge Cases)处理不足、硬件维护成本高昂以及法律伦理框架滞后等诸多挑战。这些现状既是当前跨学科研究的痛点,也是未来十年具身智能通往通用化必须解决的问题[46]


四、具身智能技术发展的未来展望


如果说2025年是具身智能广泛应用元年,那么未来的十年将是具身智能从模仿人类跨越人类能力边界的关键期。具身智能的未来不仅仅是更强大的算法或更灵活的机械臂,而是一场关于感知、认知、材料与社会形态的深度变革和颠覆性创新发展

本章将从通用世界模型、神经形态计算、软体机器人、群智协作以及伦理治理五个维度,力图勾画具身智能未来十年的发展蓝图。


(一)认知高点:通用世界模型与因果推理的融合


未来的具身智能将摆脱对海量标注数据的依赖,转而拥有一种类似生物的物理直觉

1.从预测像素到理解物理

当前的世界模型(World Models)大多基于视频生成技术,虽然能预测下一阶段画面,但并不足以理解背后的物理本质[14-16,36]

未来展望:2030年前后的世界模型将进化为内置物理引擎的神经架构[14-16]。它不仅能预测物体移动的视觉效果,还能推算其质量、惯性、摩擦系数及流体力学特征等物理世界的参数与指标

反事实推理:机器人将具备如果……会怎样(What-if的推理能力,这个方面在AI发展早期的专家系统和基于知识的推理系统得到了广泛应用[24,25]。在执行任务前,它能在脑海中进行数千次的模拟,通过因果干预分析,排除那些可能导致危险或失败的方案。

2.零样本技能泛化与自主发现

未来的具身智能体将具备自进化能力。具身智能体在遇到从未见过的工具(如一种新型的扳手)时,不需要人类重新训练,而是能通过观察工具的形状和物理属性,利用世界模型进行自主补充实验,在数秒内掌握使用该工具的技巧。这种自主技能发现将使机器人提高处理极端长尾场景的能力。


(二)身体之变:软体机器人、生物混合与材料革命


具身智能的未来不仅在于强悍,更在于柔顺自愈方面的发展

1.软体机器人与电子皮肤的深度集成

目前的机器人大多由刚性连杆件和金属零部件组成,这在人机交互中存在天然的风险。

未来展望:结合具身AI的软体机器人(Soft Robotics)将成为主流[47]。利用形状记忆合金(SMA)、电活性聚合物(EAP)等智能材料[48],机器人灵活性大幅度提高,能够挤进狭小空间,或者像人类手指一样温柔地捏起一个肥皂泡。

感知电子皮肤:未来机器人的皮肤将不再仅仅是传感器的堆砌,而应该具备神经形态处理能力的多模态感知网络[44,49]。它能感知压力、纹理、温度、湿度甚至空气流动,并直接在皮肤层级处理简单的反射弧逻辑(如遇热自动缩手),大大降低数字大脑的计算负担。

2.生物混合智能(Bio-hybrid AI

更具前瞻性的方向是生物合成机器人[50]。通过将活体细胞(如心肌细胞或肌肉纤维)与合成支架结合,由AI控制其收缩与运动。这种机器人不仅具备极高的能量利用率,还拥有生物级别的自我修复(Self-healing)能力


(三)计算之基:神经形态计算与边缘自进化


为了实现真正的实时交互,具身智能的计算架构将经历从云端神经元转变与回归。

1.脉冲神经网络(SNN)与类脑芯片

传统的冯·诺依曼架构在处理连续、异步的传感器流时效率极低。

未来展望:专为具身智能设计的神经形态芯片(Neuromorphic Chips进入大规模商业化应用[49]。这种芯片模拟生物大脑的脉冲神经网络,仅在有信号变化时才产生功耗,将大幅度提升人形机器人的续航能力。

端侧终身学习(On-device Lifelong Learning):机器人将具备在本地进行权重微调的能力。每到一个新家庭、新工厂,它都能在运行过程中不断优化感知模型,而无需将隐私数据上传至云端进行重新训练。


(四)社会之网:群智协作与人机共生系统


未来的具身智能体将进入网络化、社会化的形态,以此融入人类生活与工作

1.群体智能(Swarm Intelligence)与去中心化协作

在复杂的建筑工地或灾难搜救场景中,单体机器人的能力是有限的。

未来展望:具身智能将演进为群智协作系统群智协助从数字空间进入物理世界[51]。数以百计的小型机器人能像蚁群一样,在没有中心指令的情况下,通过局部通信和具身交互,共同搬运超过自身重量百倍的物体,或完成复杂的地形测绘。

动态任务分发:机器人之间将实现经验共享,一台机器人在转角处跌倒后的避坑经验,能瞬间通过低延迟网络传递给同区域的所有智能体。

2.情感智能与社会对齐(Social Alignment

具身智能将从工具现状逐渐演变为工作伙伴。未来的机器人将通过观察人类的微表情、语调以及生理体征,利用具身化的情感计算来理解人类的真实需求。

学习社会规则:机器人不仅要学会拿杯子,还要学会不要打断人类谈话、在拥挤的电梯里保持合适的社交距离。这种对非显性社会规范的理解,将是具身智能广泛走向社区应用的关键。


(五)治理之基:安全、伦理与法律的重构


具身智能的能力增强,也意味着风险的指数级提升。未来具身智能的普及必须建立在严格的治理框架之上。

1.物理层级的安全约束(Physical Safety Locks

数字空间智能技术不同,具身智能具有真实和直接的破坏力。未来的技术标准将要求在硬件底层嵌入不可篡改的物理安全阈值[52]。例如,无论算法如何输出,机械臂在接近人类身体时的速度和力度都会被硬件限位强制锁定。

2.隐私保护的阶梯化

具身智能体是全天候的移动监控站。未来的展望包括

语义去隐私技术:机器人感知到的视觉流在进入存储前,将通过本地算法自动模糊化所有人脸、文字等敏感信息,仅保留与具体任务相关的几何语义[53]

数据所有权回归:建立基于区块链的具身数据追踪系统,确保用户对机器人在家采集的数据拥有绝对的知情权和销毁权[54]

3.法律人格与责任溯源

当一个具备自进化能力的机器人意外损毁财物时,责任归属于开发者、训练者还是使用者?

未来预测:各国将出台专门的《具身智能责任法》[55],可能为高端具身智能体设立强制保险制度数字身份,实现全生命周期的责任溯源。


(六)小结:从“万物互联”到“万物具身”


展望2035年,人类将进入一个智能物化的新阶段。智能不再仅仅是屏幕上的像素,而是可以握住你的手、为你烹饪晚餐、在危险矿井中替你流汗,甚至带你探索月球基地的物理实体。

这场变革的本质,是人类利用技术创造出了一类能够理解并尊重物理律、同时具备社会协作能力的新物种。人机关系的未来不是替代,而是共进化:具身智能解放了人类的体力,而人类则在与智能体的交互中,重新审视和定义了自身的创造力与情感价值。


五、结语——具身智能的时代定力与文明回响


具身智能(Embodied AI)的崛起,不仅是人工智能领域的一次技术跃迁,更是人类历史上一次关于智慧实体关系的深刻重构。站在2025年这个关键的时间节点回望,我们可以从技术演进、产业变革与文明意义三个维度,对这篇综述内容进行总结性的提高


(一)技术层面的核心结论:智能的物理归宿


具身智能研究表明,具身性不是智能的附属品,而是智能的本质属性。通过对具身智能发展的梳理,可以得出的首要结论是脱离了物理实体的数字空间智能虽然在逻辑运算和信息处理上达到了峰,但其始终面临符号接地的瓶颈[9-12]

具身智能通过模型、运动控制多模态硬件的深度融合,破解了莫拉维克悖论[13]2025年技术发展的现状证明,基于VLA(视觉-语言-动作)架构的通用模型[1-3,35],配合高仿真、高并发的Sim2Real训练范式[33,34],已经让机器具备了初步的物理常识与泛化能力。未来,随着通用世界模型逐步完善与成熟[14-16,36-40],机器人将从单纯的模仿者不断进化为具备物理直觉的自主实体,这标志着AI将有可能补齐通往通用人工智能(AGI)的重要一块拼图。


(二)产业层面的大趋势:第二次生产力大爆发


在应用领域,具身智能正在重塑全球产业的底层逻辑。

从工具到伙伴发展机器人不再是工厂里执行固定程序的机器,而将成为具备语义理解能力、能够与人共处的协作伙伴[17-19]

未来类人型机器人(又称人型机器人,Humanoid Robots的快速且广泛发展与应用,在具身智能机器人基础上,发展自主具身智能机器人[17–19,22,23],以满足更广泛的应用领域的需求。

从垂直驱动到通用渗透:具身智能的应用已从自动化仓储、精密制造等标准场景,渗透至医疗康养、特种巡检以及千家万户的家庭服务中。

数据事实表明,具身智能及自主具身智能机器人将可能是解决全球劳动力短缺、实现工业4.0柔性智能制造的可行方案。它所带动的不仅是人形机器人这一个万亿级市场,更是对传感器、高性能电机、神经形态芯片以及空间计算平台等各方面的全面拉动。这种以智促质的产业变革,将成为未来十年全球经济增长的重要引擎之一


(三)人才是制胜关键:跨学科融合支撑强基础,发现、提出并解决工程创新能力培养


人工智能界已经认识到具身智能的竞争,归根结底是人才培养和创新生态建设的竞争具身智能科技创新和产业应用将需要大量科技创新和工程应用人才,需要数智时代工程创新人才培养模式进行深度变革和全面、持续创新[56]具身智能人才培养特别是工程创新和领军人才培养,要求高校打破传统的学科孤岛,建立一套融合人工智能、机器人学、计算机科学、机械工程、自动化、电子工程、材料科学与仿生工程、感知科学、认知科学、伦理学、工程师职业道德与责任等方面知识的培养体系,并建立新工科教育模式、引领教育范式变革对传统的工程人才培养目标、毕业要求、课程体系建设、课程内容确定、教与学的方法、教学考核和质量标准要进行系统性重构,将教学内容的相对稳定(修订/2年)课程模块、学期与学年修订的课程模块、实时修订的最小课程模块,融合组成高度模块化课程体系,以适应快速变化的具身智能技术发展和产业应用的需求。强调数学和物理专业水平课程的引入,鼓励有条件的高校学术基础好的学生主动选修数学专业相关课程,特别是与具身智能机器人相关的李群和李代数、非线性动力学、优化理论、随机最优控制等高难度课程。全面提高学生的自学能力,加强学生的批判性-创造性-系统性思维能力培养,以及沟通、合作、团队工作等元技能与元认知的培养,拓展学生将创新想法付诸动手实践的工程实践技能培养渠道与平台。

建设未来技术创新工场与未来学习中心系统,整合国家级、省部级重点实验室、工程中心、创新创业基地等平台为智能时代人才培养和科技创新的新生态,吸引学生尽早融入到科技研发和创新创业系统中来,培养具有各种专长又能够驾驭人工智能技术的卓越工程创新人才。未来高等工程教育人才培养的胜出者,必将是那些能够率先实现真正意义上的多学科交叉融合、产学研用闭环、国内外协同创新的人才培养体系的建立,能够在大规模数字智能仿真与物理实操之间建立高速通道的国家与企业。人工智能时代将为各国高校提供人才培养和科技创新的新赛道,在这个大变革过程中一定会涌现出人民和社会公认的优秀高校。


(四)文明高度的终极思考:人机共生的新形态


具身智能的意义超越了技术本身,它触及了人类文明的根本命题。具身智能的出现并非为了取代人类,而是为了延展人类的能力边界代人力进入极端的物理环境,承担枯燥的重复劳动,让人类得以将精力投向更具创造力与情感价值的领域。

然而,我们也必须保持高度的审慎。正如文中提到的未来展望,具备物理破坏力的智能体对社会伦理、个人隐私及法律责任提出了前所未有的挑战。需要社会各界在追求智能密度的同时,同步构建伦理厚度,确保具身智能的发展始终行驶在造福人类的轨道上[52-55]


(五)小结:万物具身,未来已来


如果互联网比喻为世界联结为一处数字村落,那么具身智能将使这个村落中的万物焕发生机。从1950年那只步履蹒跚的电子乌龟[22,23],到2025年流畅交互的人形机器人,人类追逐创造生命镜像的梦想从未如此接近现实。

万物皆具身,物物皆智能。具身智能的浪潮已至,它不仅在改写代码与电路的组合,更在定义人类、具身智能体与物理世界交互和协同的方式。在这个发展进程中,人类既是创造者,也是见证者,更是与智能体共同进化的同行者。

参考文献

  

[1]AHN M,BROHAN A,BROWN N,et al.Do as I can,not as I say: grounding language in robotic affordances[J/OL].arXiv, 2022.https://arxiv.org/abs/2204.01691.

[2]DRIESS D,XIA F,SAJJADI MEHDI S M,et al.PaLM-E:an embodied multimodal language model[C]//Proceedings of the 40th International Conference on Machine Learning(ICML).Hawaii: ICML,2023.

[3]BROHAN A,BROWN N,CARBAJAL J,et al.RT-2:vision-language-action models transfer knowledge from web to robots[J/OL].arXiv,2023.https://arxiv.org/abs/2307.15818.

[4]MERLEAU-PONTY M.Phenomenology of perception[M].SMITH C,trans.London:Routledge&Kegan Paul,1962.

[5]VARELA F J,THOMPSON E,ROSCH E.The embodied mind: cognitive science and human experience[M].Cambridge,MA:MIT Press,1991.

[6]CLARK A.Being there:putting brain,body,and world together again[M].Cambridge,MA:MIT Press,1997.

[7]LAKOFF G,JOHNSON M.Philosophy in the flesh:the embodied mind and its challenge to western thought[M].New York:Basic Books,1999.

[8]PFEIFER R,BONGARD J.How the body shapes the way we think: a new view of intelligence[M].Cambridge,MA:MIT Press,2006.

[9]BARSALOU L W.Grounded cognition[J].Annual review of psychology,2008,59:617-645.

[10]SHAPIRO LEmbodied cognition[M].2nd ed.New York: Routledge,2019.

[11]DREYFUS H L.What computers can't do:a critique of artificial reason[M].New York:Harper&Row,1972.

[12]GIBSON J J.The ecological approach to visual perception[M].Brandon:Psychology Press,1979.

[13]MORAVEC H.Obstacle avoidance and navigation in the real world by a seeing robot rover[D].Stanford:Stanford University,1980.

[14]HA D,SCHMIDHUBER J.World models[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems(NeurIPS).New York:NeurIPS,2018.

[15]HAFNER D,LILLICRAP T,BA J,et al.Dream to control:learning behaviors by latent imagination[C]//Proceedings of the 8th International Conference on Learning Representations (ICLR).Addis Ababa:ICLR,2020.

[16]LIU Y,CHEN W,BAI Y,et al.Aligning cyber space with physical world:a comprehensive survey on embodied AI[J/OL]. arXiv,2025.https://arxiv.org/abs/2407.06886.

[17]BREAZEAL C.Toward sociable robots[J].Robotics and autonomous systems,2003,42(3-4):167-175.

[18]DAUTENHAHN K.Socially intelligent robots:dimensions of human-robot interaction[J].Philosophical transactions of the royal society B:biological sciences,2007,362(1480):679-704.

[19]GOODRICH M A,SCHULTZ A C.Human-robot interaction:a survey[J].Foundations and trends in human–robot interaction,2008,1(3):203-275.

[20]WIENER N.Cybernetics or control and communication in the animal and the machine[M].Cambridge,MA:MIT Press,1948.

[21]TURING A M.Computing machinery and intelligence[J]. Mind,1950,59(236):433-460.

[22]WALTER W G.An imitation of life[J].Scientific American, 1950,182(5):42-45.

[23]WALTER W G.The living brain[M].New York:W.W.Norton Company,1953.

[24]FIKES R E,NILSSON N J.STRIPS:a new approach to the application of theorem proving to problem solving[J].Artificial intelligence,1971,2(3-4):189-208.

[25]NILSSON N J.Shakey the robot[R].Menlo Park:SRI International,1984.

[26]BROOKS R A.Intelligence without representation[J].Artificial intelligence,1991,47(1-3):139-159.

[27]BROOKS R A.A robust layered control system for a mobile robot[J].IEEE journal of robotics and automation,1986,2(1):14-23.

[28]MNIH V,KAVUKCUOGLU K,SILVER D,et al.Human-level control through deep reinforcement learning[J].Nature,2015, 518(7540):529-533.

[29]LEVINE S,FINN C,DARRELL T,et al.End-to-end training of deep visuomotor policies[J].Journal of machine learning research,2016,17(1):1334-1373.

[30]SUTTON R S,BARTO A G.Reinforcement learning:an introduction[M].2nd ed.Cambridge,MA:MIT Press,2018.

[31]WATKINS C J C H.Learning from delayed rewards[D]. Cambridge:University of Cambridge,1989.

[32]LEVINE S,PASTOR P,KRIZHEVSKY A,et al.Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection[J].The international journal of robotics research,2018,37(4-5):421-436.

[33]TODOROV E,EREZ T,TASSA Y.MuJoCo:a physics engine for model-based control[C]//2012 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS). Vilamoura:IROS,2012:5026-5033.

[34]TOBIN J,FONG R,RAY A,et al.Domain randomization for transferring deep neural networks from simulation to the real world[C]//2017 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS).Vancouver:IROS,2017: 23-30.

[35]BROHAN A,BROWN N,CARBAJAL J,et al.RT-1:Robotics transformer for real-world control at scale[J/OL].arXiv,2022. https://arxiv.org/abs/2212.06817.

[36]OpenAI.Learning to model the world with video generation[EB/OL].[2025-12-10].https://openai.com/research.

[37]MAKOVIYCHUK V,WAWRZYNIAK L,GUO Y,et al.Isaac Gym: High performance GPU-based physics simulation for robot learning[C]//Proceedings of the 5th Conference on Robot Learning(CoRL).London:CoRL,2021.

[38]SAVVA M,KADIAN A,MAKSYMETS O,et al.Habitat:a platform for embodied AI research[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision(ICCV).Seoul: ICCV,2019:9339-9347.

[39]Open X-Embodiment Collaboration,O'NEILL A,REHMAN A,et al.Open X-Embodiment:robotic learning datasets and RT-X models[J/OL].arXiv,2023.https://arxiv.org/abs/2310.08864.

[40]YUAN W,DONG S,ADELSON E H.GelSight:high-resolution tactile sensing for robot in-hand manipulation[J].Sensors, 2017,17(12):2762.

[41]BILLARD A,KRAGIC D.Trends and challenges in robot manipulation[J/OL].Science,

2019,364(6446).https://www.researchgate.net/publication/333911641_Trends_and_challenges_in_robot_manipulation.

[42]HARDMAN D,THURUTHEL T G,IIDA F.Multimodal information structuring with single-layer soft skins and high-density electrical impedance tomography[J/OL]. Sciencerobotics,2025,10(103).https://doi.org/10.1126/scirobotics.adq2303.

[43]TESLA.Optimus Gen-2 technical summaries[EB/OL].[2025-12-10].https://www.tesla.com/blog.

[44]Figure AI.Figure 01:neural networks for end-to-end robotics[EB/OL].[2025-12-10].https://www.figure.ai/.

[45]DUAN J,YU S,TAN H L,et al.A survey of embodied AI:from simulators to research tasks[J].IEEE transactions on emerging topics in computational intelligence,2022,6(2):230-244.

[46]LISONDRA M,BENHABIB B,NEJAT G,et al.Embodied AI with foundation models for mobile service robots:a systematic review[J/OL].arXiv,2025.https://arxiv.org/abs/2505.20503.

[47]RUS D,TOLLEY M T.Design,fabrication and control of soft robots[J].Nature,2015,521(7553):467-475.

[48]SHAHINPOOR M, KIM K J.Ionic polymer-metal composites: I.fundamentals[J].Smart materials and structures,2001, 10(4):819-833.

[49]INDIVERI G,LIU S C.Memory and information processing in neuromorphic systems[J].Proceedings of the IEEE,2015, 103(8):1379-1397.

[50]WEBSTER-WOOD V A,GUIX M,XU N W,et al.Biohybrid robots:recent progress,challenges,and perspectives[J]. Bioinspiration&biomimetics,2022,18(1):015001.

[51]BRAMBILLA M,FERRANTE E,DORIGO M,et al.Swarm robotics:a review from the swarm engineering perspective[J].Swarm intelligence,2013,7(1):1-41.

[52]AMODEI D,OLAH C,STEINHARDT J,et al.Concrete problems in AI safety[J/OL].arXiv,2016.https://arxiv.org/abs/1606.06565.

[53]DWORK C,ROTH A.The algorithmic foundations of differential privacy[J].Foundations and trends in theoretical computer science,2014,9(3-4):211-407.

[54]NAKAMOTO S.Bitcoin:A peer-to-peer electronic cash system[EB/OL].[2025-12-10].https://bitcoin.org/bitcoin.pdf.

[55]CALO R.Robotics and the lessons of cyberlaw[J].California law review,2015,03(3):513-563.

[56]顾佩华. 顾佩华工程教育文集——从设计导向的工程教育到CDIO和新工科建设(1999-2024)[M].天津:天津大学出版社,2025.