64: 让奶牛猫跳洗澡舞，与阿里通义薄列峰聊多模态共识中的变量是什么？| AI 大爆炸

晚点聊 LateTalk

תוכן מסופק על ידי 晚点 LatePost. כל תוכן הפודקאסטים כולל פרקים, גרפיקה ותיאורי פודקאסטים מועלים ומסופקים ישירות על ידי 晚点 LatePost או שותף פלטפורמת הפודקאסט שלהם. אם אתה מאמין שמישהו משתמש ביצירה שלך המוגנת בזכויות יוצרים ללא רשותך, אתה יכול לעקוב אחר התהליך המתואר כאן https://he.player.fm/legal.

2M ago 51:20

MP3•בית הפרקים

年初至今，很多人可能都刷到过跳洗澡舞的奶牛猫和大金毛，从 B 站、小红书到 TikTok，它们一路从中国火到了海外。

让小猫舞起来的应用是阿里巴巴通义千问 App 中的“全民舞王”功能，其背后的技术是阿里通义实验室 XR 实验室开发的 Animate Anyone。

通义实验室 XR 实验室的多模态成果还有可一键换装的 Outfit Anyone，和今年 2 月底刚发布的肖像视频生成框架 EMO（Emote Potrait Alive），它可以用一段语音作为单一控制条件，驱动任何肖像类照片动起来，比如让蒙娜丽莎诗朗诵，让 Sora 女主角开口说话。

*节目中涉及的术语可见 Shownotes 末尾的附录解释。

（视频链接见 shownotes 末尾）

本期节目我们就邀请到了这一系列多模态成果的研发 leader，阿里通义实验室科学家（XR 实验室负责人）薄列峰，来分享他在人工智能多模态领域的实践与观察。

薄列峰于 2007 年获得西安电子科技大学电气工程博士学位，后在芝加哥大学和华盛顿大学从事博士后研究。

在加入阿里前，他先后担任了英特尔资深研究员，亚马逊无人超市 Amazon Go 首席应用科学家和京东数科 AI 实验室首席科学家。

薄列峰的学术和工业界经历刚好横跨深度学习崛起前后，并涉足多个领域，包括计算机视觉、自然语言和 AI 与硬件的结合。

本期节目我们从 OpenAI Sora 对多模态行业的影响出发，聊到了阿里自己的实践，技术与产品的结合——Animate Anyone 支持的“全民舞王”是一个AIGC（生成式人工智能）应用引发 meme 传播的的例子；还有薄列峰对多模态未来趋势，包括更长期的世界模型的技术设想。

内容摘要：
· Sora 和多模态行业进展
01:50 典型的多模态包括文生图、文生视频等；XR 实验室研究范围：解决数字人等问题。
03:19 多模态有较长的发展脉络，从 GAN 到 Diffusion Model 再到如今的 Sora。
06:35 Sora 的冲击：恐惧无益，视频生成尚未完全解决，世界模型仍有探索空间。
08:04 世界模型的定义和实现方法尚未达成共识。
09:09 Sora 带来了挑战与冲击，创业公司的机会。
10:51 面对 Sora，大厂的数据优势是否仍存在？

· XR 实验室的多模态探索
12:40 多模态模仿人类智能和能力，是自然而重要的发展方向。
14:00 阿里多模态研究脉络：数字资产生产+技能；技能涵盖表情、动作和交互等。
18:26 EMO 通过单一语音控制生成视频，无需动作序列。
20:40 Talking head 之前也有人做，新方法的区别在于使用了大模型。
21:32 大模型带来的变化：EMO 是 zero shot，生成过程简单、轻量；同时效果更生动、复杂，适应性更强。

· 技术与产品的协同进步
24:10 Animate Anyone 用到通义千问 app 中是技术研发和应用的交集。
26:28 用户带来的启发：让宠物跳舞比让人跳舞更受欢迎，因为宠物只能通过技术来跳舞。
27:10 上传狗的人比猫的人更多，因为原初模型更容易识别狗，近期已做了优化，提升了对猫狗的接受率。
27:56 免费提供 AIGC 功能的成本考量？现阶段更重视用户参与和反馈。
29:15 为何分精力做产品优化？——现阶段的产品优化实质是模型能力的优化。

· 过往的跨领域经历和技术观察
32:58 07年前后关于深度学习的玩笑：“深度学习效果比其它方法高了一个点，但多了很多参数。”
33:42 深度学习首先在语音识别任务上取得突破。
34:45 在亚马逊 Amazon Go 解决实际视觉问题的经历。
36:30 跨学科经历的启发？——实践中积累的正确理解至关重要。
38:20 为什么物理世界的 AI 进化更慢？——硬件在过去甚至未来都是大瓶颈。
42:10 多模态大趋势里的变量？——世界模型的实现。
43:12 世界模型应该能模拟因果，而非仅表达统计关系。实现方式仍不确定。
44:37 世界模型是否需 3D 化？尚不确定。
46:24 世界模型应输入哪些数据？
48:32 有了世界模型后，人们可以用它做什么？

相关阅读：
EMO 项目网站（可查看视频 demo）

Animate Anyone 项目网站（可查看视频 demo）

附录：节目中出现的技术、公司等名词：
·GAN（生成对抗网络）：一种通过对抗训练生成数据的深度学习模型。
·Diffusion Model（扩散模型）：目前主流的图片生成模型，它是模拟数据扩散过程的高质量图像生成模型。
·CLIP：OpenAI 发布的理解图像与文本关系的多模态 AI 模型。
·Pika、Runway：两家视屏生成模型创业公司。
·世界模型：模拟现实世界复杂系统的智能模型。
·Prompt：引导 AI 模型生成特定输出的文本或其它输入。
·zero shot：指模型无需针对特定任务训练特定样本也可完成该任务的能力。
·动作序列：按顺序排列的一系列动作，通过定义一系列动作和它们的执行顺序，可以创建出流畅且连贯的动态表现。

登场人物：
薄列峰，阿里通义实验室科学家
程曼祺，晚点 LatePost 科技报道编辑（微信：momochoqo；即刻：程曼祺_火柴Q）

剪辑：甜食

70 פרקים

#晚点 LatePost #Latepost #晚点聊 #LateTalk