机器之心PRO · 会员通讯 Week 29
本周为您解读 ③个值得细品的 AI Robotics 业内要事
1. 「CV 铁三角」落定meta,视觉 AI 如何向多模态演进?
meta 的挖人策略有何深意?「CV 铁三角」的五项工作如何印证多模态 AI 的关键进展?多模态 AI 发展还有哪些里程碑?实现全模态的 OmniLLM 还有哪些坎要过?...
2. MultiAgent 协作兴起,RAG 注定只是过渡方案?
检索增强生成(RAG)与持续状态 memory 机制之间有哪些异同,如何实现互补?多层级 memory 架构如何有效支持短期与长期上下文的动态迁移与压缩?多模态和多智能体环境下,memory 系统如何避免语义漂移与上下文「污染」?面对海量 memory 数据,如何设计高效的多级语义检索与上下文优先级管理机制?...
3. Perplexity 如何用 AI 原生浏览器对抗谷歌的「流量受限型 AI」?
Perplexity 近期为何热度飙升?为什么谷歌只能推出流量受限的 AI 产品?Aravind Srinivas 如何设计公司的产品「护城河」?Perplexity将如何用有限的资源突破巨头「围剿」?...
本期完整版通讯含 3 项专题解读 + 30 项 AI Robotics 赛道要事速递,其中技术方面 10 项,国内方面 8 项,国外方面 12 项。
本期通讯总计 24110 字,可免费试读至 7%
消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)
要事解读① CV 铁三角」落定meta,视觉 AI 如何向多模态演进?
引言:meta 近期频繁高薪挖人的动作引起了大量热议。在一众被聘用 AI 研究员中,来自 OpenAI 苏黎世办公室的「CV 铁三角」因从业经历和研究方向的特点引起了广泛关注。在业界梳理下,他们的研究成果和视觉 AI 往多模态演进的关键路径高度贴合,为未来的「全模态模型」打下了基础。
「CV 铁三角」的成果≈现代多模态 AI 基础框架?
1、从 OpenAI 苏黎世办公室被挖走的 Lucas Beyer、Alexander Kolesnikov 和 Xiaohua Zhai 此前均在 GoogleBrain(后并入 DeepMind)共事,被称为谷歌的「CV 铁三角」,而后在 2024 年加入 OpenAI 并创办苏黎世办公室。
2、三人在过往十年几乎始终作为一个团队协作,包含最为人熟知的「ViT」在内,其研究项目具有高度连续性,研究轨迹几乎等同于视觉 AI 的发展路径,因为有业界尝试从 meta 招聘三人的动作分析背后的战略意图。[11]
① 在 AI 社区中,有文章梳理了「CV 铁三角」的近年来主导的五项代表性工作,包含 S4L,到 BiT 、ViT、MLPMixer,以及 PaLI 系列,涵盖从图像预训练到多模态融合的发展路径。
② 按照成果发布数据顺序,2019 年 5 月提出的「S4L」针对图像分类器的半监督学习问题,结合自监督和半监督学习,通过辅助任务让模型在无标签样本上「制造」可学习目标,减少对人工标注的依赖,从而提升整体训练效果。
③ 2019 年 12 月提出的「BiT」视觉表方案验证了「大规模有监督预训练 → 下游任务微调」经典迁移学习范式在视觉领域的可行性。这也是后续包含 CLIP 和 SAM 在内的视觉基础模型所采用的基础范式。
④ 2020 年 10 月提出的「ViT」尝试将纯 Transformer 应用于视觉任务,将图像转换为向量,使其能够与文本等其他模态在共享的特征空间中进行比较和关联 。ViT 证明了「CNN 不是训练通用能力的唯一选择」,其全局理解图像的能力也是实现图像与文本等模态深度融合的基础。
⑤ 2021 年 5 月提出的「MLPMixer」是 Transformer 在 CV 任务中开始流行后对性能和架构复杂度关联的重新思考。该工作通过 tokenmixing 和 channelmixing 两层 MLP 实现空间位置和特征通道的信息交流,在没有卷积和自注意力机制的情况下,用最简单的 MLP 架构训练出能力优越的模型。
⑥ 2022 年 9 月提出的「PALI」是谷歌在「多模态大一统」的早期尝试。PALI 结合了图像理解和语言生成,将所有图片+问题的输入变成文本生成任务,并通过此界面以多种语言执行视觉、语言和多模态任务。在这一路径下,谷歌后续衍生出了 PALI 3,PaliGemma 等工作。
3、从图像分类任务到基于图像的多语言对话,「CV 铁三角」的研究在加强和完善 AI 视觉能力的路线下逐步迭代改善,和同期一系列工作构建起现代多模态 AI 的基础框架,进而解锁后续 AI 模型在模态融合与理解的能力,使终极的多模态「大一统」成为可能。
视觉 AI 到多模态还有哪些「里程碑」?
相关文章:
格威德GEWEDE中央空调号码-全国统一400客服210-20
极酷空调全国售后服务网点号码(完美资讯)10-20