阿里巴巴推出LHM：让单张照片瞬间变身可动3D人物的神奇技术

阿里巴巴推出LHM：让单张照片瞬间变身可动3D人物的神奇技术

2025-08-06 21:19

这项由阿里巴巴通义实验室的邱令腾、顾晓东、李佩豪、左琦等多位研究人员共同完成的突破性研究，于2025年3月发表在计算机视觉领域的顶级会议上。有兴趣深入了解的读者可以通过arXiv:2503.10625v1访问完整论文。研究团队开发了一个名为LHM（Large Animatable Human Reconstruction Model）的大型人体重建模型，能够在几秒钟内将单张人物照片转换成可以自由运动的3D虚拟人物。

想象你拿着一张朋友的照片，突然这个平面的人物活了过来，可以走路、跳舞、做各种动作——这听起来像是科幻电影中的场景，但阿里巴巴的研究团队已经把它变成了现实。传统上，要从单张照片创建一个能够活动的3D人物，就像试图从一张蛋糕的照片推测出整个蛋糕的味道、质地和内部结构一样困难。照片只能告诉我们人物的正面外观，却无法透露背面长什么样，更别说如何让这个人物自然地运动了。

这个问题的核心挑战在于，当我们看到一张人物照片时，需要同时解决三个复杂的谜题：这个人的完整三维形状是什么样的（几何信息），他们的衣服和皮肤是什么颜色和质感的（外观信息），以及当他们运动时身体各部分应该如何协调变形（运动信息）。这就像是一个侦探需要仅凭一个脚印就推断出整个人的身高、体重、走路姿态，甚至预测他在跳舞时的样子。

传统的解决方案要么像老式的木偶戏一样，虽然能让人物动起来，但动作僵硬不自然；要么像精雕细琢的艺术品，外观很逼真，但完全不能动。而那些试图两者兼顾的方法，往往需要花费数分钟甚至数小时的计算时间，就像用放大镜一点一点地雕刻一样慢。

阿里巴巴的研究团队提出了一个完全不同的解决思路。他们的LHM系统就像一个训练有素的魔术师，能够在短短几秒钟内完成这个看似不可能的任务。这个系统的核心创新在于使用了一种特殊的"多模态变换器"架构，可以同时处理和理解照片中的视觉信息和三维空间的几何信息。

这种多模态变换器的工作原理可以比作一个经验丰富的服装设计师。当设计师看到一张人物照片时，他们不仅能看出这个人穿的是什么衣服，还能凭借丰富的经验推断出衣服的剪裁、面料的垂坠感，甚至想象出这个人走动时衣服会如何摆动。LHM系统通过深度学习训练，获得了类似的"经验"和"直觉"。

研究团队使用了一个巧妙的设计来解决人体重建的复杂性。他们首先从SMPL-X人体模型中采样表面点，这些点就像是给人体搭建的一个基础框架，类似于制作雕塑时先搭建的铁丝骨架。然后，系统会在这个框架的基础上，根据输入照片的信息来"填充血肉"，预测出每个位置应该有什么样的三维高斯分布。

这里需要解释一下什么是三维高斯分布。可以把它想象成一个个大小不同、方向各异的透明气泡。每个气泡都有自己的位置、大小、朝向、透明度和颜色。当成千上万个这样的"气泡"组合在一起时，就能形成一个完整的、具有丰富细节的三维人物模型。这种表示方法的优势在于，它既能保持高质量的视觉效果，又能支持实时渲染，就像现代游戏中的角色一样流畅自然。

为了让重建出的3D人物能够真实地运动，研究团队采用了线性混合蒙皮技术。这个技术的工作原理就像木偶师操控提线木偶一样。每个"气泡"都通过虚拟的"线"连接到人体骨骼上，当骨骼移动时，相关的"气泡"也会跟着协调运动，从而实现自然的身体变形和运动效果。

考虑到人脸是最容易被观察者注意到的部分，研究团队特别设计了一个"头部特征金字塔编码"方案来增强面部细节的保持。这个方案就像摄影师使用不同焦距的镜头来拍摄同一个主题一样，从多个尺度来捕获面部特征。近距离的"镜头"能够捕捉到皮肤纹理、眼睛的细节等高频信息，而远距离的"镜头"则能把握整个面部的结构和比例。通过融合这些不同尺度的信息，系统能够更好地保持人物的面部特征和身份特征。

在训练过程中，研究团队面临一个实际问题：获取大量高质量的三维人体数据是极其困难和昂贵的，就像试图收集博物馆级别的艺术品一样稀少珍贵。为了解决这个问题，他们采用了一种聪明的自监督学习策略。系统不需要真实的三维人体数据作为"标准答案"，而是通过观看大量视频来学习。

这个学习过程可以这样理解：系统观看一个人在视频中的多个动作片段，试图从一个角度的图像重建出完整的三维模型，然后将这个模型转换到其他角度进行验证。如果重建的模型是准确的，那么从不同角度渲染出的图像应该与视频中对应角度的真实图像相匹配。通过这种方式，系统逐渐学会了如何从有限的视觉信息中推断出完整的三维结构和运动规律。

研究团队在训练数据的准备上也下了很大功夫。他们从50万个初始的人体运动视频样本中，通过多阶段的筛选流程，最终精选出30万多个高质量的单人视频序列。这个筛选过程就像电影制片人从海量素材中挑选最佳镜头一样严格，要确保每个视频都没有多人互动、面部遮挡或质量问题。

为了解决自然视频中视角分布不均的问题（大多数视频都是正面或侧面拍摄，很少有背面或俯视角度），研究团队还补充了合成数据。他们使用了三个来源的高保真三维人体扫描数据：2K2K数据集的1000个纹理模型、Human4DiT的4324个纹理角色，以及400个来自RenderPeople的商业资产，总共形成了5724个高保真三维人体扫描模型。

在技术实现上，LHM系统采用了一种独特的"多模态身体-头部变换器"架构。这个架构的设计理念是让系统能够同时关注全身和面部的细节，就像一个经验丰富的肖像画家能够在把握整体比例的同时，也不忽略面部表情的微妙变化。

系统首先将输入图像分解为身体图像标记和头部图像标记，同时生成三维几何标记。这些不同类型的信息就像拼图的不同部分，需要巧妙地组合才能形成完整的图像。多模态变换器通过注意力机制让这些不同的信息相互"对话"，几何标记能够有效地关注到图像标记的相关部分，从而实现局部和全局的细节优化。

为了防止系统过分依赖头部区域的特征而忽略身体部分的学习，研究团队引入了一个巧妙的"头部标记收缩正则化"策略。这个策略的灵感来自于机器学习中的掩码自编码器技术，在训练过程中随机遮挡头部区域的0%到50%，迫使系统学会更好地利用身体上下文信息。这就像训练一个画家，有时候故意遮住模特的脸部，让画家学会通过身体姿态和整体轮廓来把握人物特征。

在损失函数的设计上，研究团队采用了一种综合的优化策略，结合了视图空间监督和规范空间正则化。视图空间监督包括三个部分：外观损失确保重建模型在视觉上与输入图像相符，轮廓损失保证几何对齐，感知质量损失则保持高频细节。

规范空间正则化则解决了单目重建固有的不适定问题。由于从单张照片重建三维模型本质上是一个信息不足的问题，需要额外的约束来确保结果的合理性。研究团队设计了两种互补的正则化项：高斯形状正则化鼓励三维高斯分布保持接近球形，避免出现不自然的针状椭球；位置锚定正则化则确保高斯分布的位置不会偏离初始的SMPL-X表面太远，就像给飞翔的风筝系上线绳一样。

在实验验证方面，研究团队进行了全面的对比实验。他们将LHM与现有的几种主流方法进行了比较，包括专注于静态重建的GTA、SIFu、PSHuman和DreamGaussian，以及专注于可动画重建的En3D和AniGS。

实验结果显示，LHM在多个评估指标上都显著优于现有方法。在合成数据的评估中，LHM-0.5B模型在峰值信噪比（PSNR）指标上达到了25.183，远高于其他方法的16-18范围。在结构相似性指数（SSIM）上达到0.951，在感知损失（LPIPS）上仅为0.029，在面部一致性（FC）上为0.035，这些数字表明LHM不仅能生成更清晰的图像，还能更好地保持原始照片中人物的身份特征。

在真实数据的可动画人体重建任务上，LHM的优势更加明显。与最佳的基线方法AniGS相比，LHM-0.5B在PSNR上提升了3.322，在SSIM上提升了0.059，在LPIPS上改善了0.063，在面部一致性上提升了0.018。更重要的是，LHM的推理时间仅需2.01秒，而AniGS需要15分钟，En3D需要5分钟，这种效率上的巨大差异使得LHM更适合实际应用。

研究团队还验证了模型的可扩展性。他们训练了不同参数规模的模型变体：LHM-0.5B（5亿参数）、LHM-0.7B（7亿参数）和LHM-1B（10亿参数）。实验结果证实，随着模型参数的增加，性能也相应提升，这表明该架构具有良好的可扩展性，为未来的进一步改进留下了空间。

数据规模的影响也得到了验证。研究团队使用不同大小的训练数据集（从1万个视频到30万个视频）进行了对比实验。结果表明，仅使用合成数据训练的模型在真实数据上的泛化能力较差，而加入真实视频数据后性能显著提升。随着训练数据规模的增加，模型性能持续改善，虽然改善幅度逐渐递减，但这证明了大规模数据训练的重要性。

在消融实验中，研究团队验证了各个组件的有效性。多模态身体-头部变换器相比于普通的多模态变换器，在各项指标上都有显著提升。头部标记收缩正则化策略也被证明能够提升整体性能，尽管在面部一致性上有轻微下降，但这是为了获得更好的全身重建质量而做出的权衡。

从视觉质量的角度来看，LHM重建的3D人物在外观保真度和纹理清晰度方面都表现出色，特别是在面部细节和服装皱褶等方面。与其他方法相比，LHM能够更好地保持输入图像的特征，避免过度平滑等常见问题。在动画效果方面，LHM生成的可动画人物能够自然地执行各种动作，包括走路、跳跃、舞蹈等复杂运动，而且在极端姿态下也能保持较好的视觉连贯性。

这项研究的意义远不止于技术层面的突破。在虚拟现实和增强现实应用中，LHM可以让用户快速创建自己的虚拟化身，用于社交、游戏或工作场景。在电影和游戏制作中，这项技术可以大大降低角色建模的成本和时间，让独立创作者也能制作出高质量的3D角色。在教育和培训领域，可以快速创建教学用的虚拟人物，提供更加生动的学习体验。

从商业应用的角度来看，这项技术可能会改变数字内容创作的格局。传统上，创建一个高质量的3D人物角色需要专业的建模师花费数天甚至数周的时间，现在普通用户只需要一张照片和几秒钟的等待就能获得类似的结果。这种效率的提升可能会催生新的商业模式和应用场景。

研究团队也坦诚地讨论了当前方法的局限性。由于真实世界的视频数据往往存在视角分布偏差，模型在处理一些不常见的视角或极端姿态时可能仍有改进空间。此外，虽然系统在大多数情况下都能很好地工作，但对于一些特殊的服装材质或复杂的光照条件，重建质量可能会有所下降。

展望未来，研究团队计划进一步改进训练策略，收集更加多样化和全面的数据集，以增强模型的鲁棒性。他们也在探索如何将这项技术扩展到多人场景和更复杂的交互情况。随着计算能力的提升和算法的进一步优化，未来的版本可能会在质量和速度上实现更大的突破。

说到底，LHM代表了计算机视觉和人工智能领域的一个重要进步，它将单张照片到可动画3D人物重建这个曾经需要专业技能和大量时间的任务，转变成了一个几秒钟就能完成的自动化过程。这不仅仅是技术上的突破，更是数字内容创作民主化的一个重要步骤。当任何人都能轻松地从一张照片创建出栩栩如生的3D虚拟人物时，我们可以期待看到更多创新的应用和更丰富的数字体验。对于那些希望了解更多技术细节的读者，可以访问研究团队在GitHub上公开的代码库（https://github.com/aigc3d/LHM），亲自体验这项令人兴奋的技术。

Q&A

Q1：LHM技术能处理什么样的照片？有什么要求吗？ A：LHM可以处理各种常见的人物照片，包括不同角度、不同服装、不同姿势的单人照片。系统对照片质量要求不高，普通手机拍摄的照片就能使用。但需要注意的是，照片中只能有一个人，且人物不能被严重遮挡。面部清晰可见的照片效果会更好，但即使是侧面或背面的照片也能处理。

Q2：生成的3D人物能做哪些动作？动作自然吗？ A：生成的3D人物可以执行各种常见的人体动作，包括走路、跑步、跳跃、舞蹈、挥手等。由于使用了SMPL-X人体模型作为骨架，理论上可以驱动任何符合人体运动学的动作。动作的自然程度很高，特别是在常见姿态下表现优秀。不过在一些极端姿态下，可能会出现轻微的变形或不自然现象。

Q3：这项技术会不会被用来制作虚假视频或进行欺骗？ A：确实存在这种风险。任何能够生成逼真人物图像或视频的技术都可能被恶意使用。不过，研究团队开发这项技术的初衷是为了推动数字内容创作和虚拟现实应用的发展。重要的是建立相应的伦理规范和技术检测手段，确保技术被正当使用。同时，提高公众对此类技术的认知也很重要。