2025-02-28
2025年1月10日,上海期智研究院第9期“SQZ Talk”学术论坛邀请新加坡国立大学博士后姚远带来专题报告“MiniCPM-V: A GPT-4V Level MLLM on Your Phone”。论坛由姜建娟博士主持。
报告人简介
姚远
上海期智研究院PI
新加坡国立大学博士后
姚远,新加坡国立大学博士后,研究方向为高效多模态大模型与深度视觉语言理解,主导研发MiniCPM-V系列模型。他于清华大学自然语言处理实验室获得博士学位,并在清华大学获得学士学位。他的研究成果入选ICLR Spotlight、ECCV Oral,以及Nature Communications Editors' Highlights。他曾获吴文俊人工智能科学技术奖优秀博士学位论文奖、Intel中国学术成就奖,以及世界人工智能大会云帆奖等奖项。
姚远博士后 专题报告
多模态大模型深刻地改变了人工智能领域的格局。然而,当前多模态大模型庞大的参数规模使其在学术和工业的实际使用中面临巨大挑战。姚远的最新研究聚焦于提升多模态大模型的知识密度,以构建规模更小、性能更强的模型。基于这些研究,姚远团队开发了高效端侧多模态大模型 MiniCPM-V。最新版本MiniCPM-V 2.6拥有80亿参数,在单图、多图和视频理解这三大核心能力上实现了优于GPT-4V的效果。在本次报告中,姚远从以下三个主要方面介绍支持 MiniCPM-V 的关键研究:(1)高效的模型架构:支持1.8百万像素的高分辨率图像编码,促进多图像和视频建模的高效知识迁移;(2)高效的训练策略:以低成本实现超过30种语言的多模态交互;(3)高质量的数据构建:通过人类与AI反馈减少多模态幻觉。MiniCPM-V在70余万模型中,连续一周排名HuggingFace Trending榜单首位(同期排名前三的其他模型包括Meta的Llama3和微软的Phi-3-vision模型)。此外,它还在GitHub Trending和Papers With Code Trending Research中排名第一。自2024年2月发布以来,MiniCPM-V系列已获得超过1.3万次GitHub星标和340万次下载。
报告结束后,科研人员们讨论了多模态模型在视觉编码上的优化方向还有哪些有能进一步降低幻觉的可能性,多模态模型和机器人数据的结合是否有可能进一步提升学习效果,混合专家架构(mix of expert)对多模态语言模型的下一步向轻量化和高效化发展价值和启示,跨语言对齐方案和RLHF方案的数据量导致模型幻觉效果改善等问题。