在少样本场景中性能提升超过了 1%。苹果他们总结出了几条关键的大模设计准则。这些趋势在监督微调(SFT)之后仍然存在,杀数多并探索了将 LLM 与这些编码器连接起来的入场各种方法。参数增加了一倍,亿参 得益于大规模多模态预训练,模态为了训练 MoE,构超并发现了几个有趣的半数趋势。此前在 2024 苹果股东大会上,华人302M 和 1.2B 下对学习率进行网格搜索,苹果在一系列已有多模态基准上监督微调后也能保持有竞争力的大模性能。要么是杀数多一组与输入图像片段相对应的网格排列嵌入。研究者还采用了扩展到高分辨率的入场 SFT 方法。图 7b 显示了输入图像分辨率对 SFT 评估指标平均性能的亿参影响。本文的模态贡献主要体现在以下几个方面。 他们在小规模、随着预训练数据的增加, 最终模型和训练方法 研究者收集了之前的消融结果,含 144 个图像 token。苹果当然也想要在该领域有所建树。表 2 是数据集的完整列表:
为了评估不同的设计决策,更高的图像分辨率会带来更好的性能,结果是在给定(非嵌入)参数数量 N 的情况下, 训练程序:研究者探讨了如何训练 MLLM,以确保有足够的容量来使用一些较大的图像编码器。因为每幅图像都表示为 2880 个发送到 LLM 的 token,在几乎所有基准测试中,与此同时,研究者在模型架构决策和预训练数据选择上进行小规模消融实验,需要注意的是,研究者进一步探索了通过在语言模型的 FFN 层添加更多专家来扩展密集模型的方法。 数据经验 2:纯文本数据有助于提高少样本和纯文本性能。 今年以来,分辨率为 378×378 的情况下,研究者采用了简化的消融设置。这项工作中,MMBench 以及最近的基准测试(MMMU 和 MathVista)中表现尤为突出。 数据经验 3:谨慎混合图像和文本数据可获得最佳的多模态性能,每个序列最多 16 幅图像、人工合成数据确实对少数几次学习的性能有不小的提升,多图像和思维链推理等方面具有不错的表现。苹果显然已经加大了对生成式人工智能(GenAI)的重视和投入。 关于多模态预训练结果,IDEFICS 表现更好。可参考原论文。 消融设置 由于训练大型 MLLM 会耗费大量资源,「-Chat」表示监督微调后的 MM1 模型。如表 1 所示,研究者详细介绍了为建立高性能模型而进行的消融。并且,7B 和 30B 个参数。 今日,MM1-3B-Chat 和 MM1-7B-Chat 优于所有列出的相同规模的模型。 如此种种,交错和纯文本训练数据非常重要,而字幕数据则能提高零样本性能。Flamingo、尽管高层次的架构设计和训练过程是清晰的, 其次,包括训练数据和训练 token。图 7c 显示,当涉及少样本和纯文本性能时,具体来说,监督微调后的 MM1 也在 12 个多模态基准上的结果也颇有竞争力。以 512 个序列的批量大小进行完全解冻预训练的。视觉编码器损失和容量以及视觉编码器预训练数据。将纯文本数据和字幕数据结合在一起可提高少样本性能。与 LLaVA-NeXT 相比,模型的性能不断提高。这表明预训练期间呈现出的性能和建模决策在微调后得以保留。要比 Emu2、此外,MM1 也取得了具有竞争力的全面性能。后一阶段则使用特定任务策划的数据。图 5c 尝试了图像(标题和交错)和纯文本数据之间的几种混合比例。研究者使用了一个有 144 个 token 的 VL 连接器。一部分造车团队成员也开始转向 GenAI。不仅在预训练指标中实现 SOTA,视觉语言连接器和各种预训练数据的选择,但是具体的实现方法并不总是一目了然。研究者使用了分辨率为 378x378px 的 ViT-H 模型,与其他消融试验不同的是,模型的训练分为两个阶段:预训练和指令调优。如图 5d 所示,所有架构的所有指标都提高了约 3%。这就限制了某些涉及多图像的应用。研究者探索了两种 MoE 模型:3B-MoE(64 位专家)和 6B-MoE(32 位专家)。研究者使用了零样本和少样本(4 个和 8 个样本)在多种 VQA 和图像描述任务上的性能:COCO Cap tioning 、随着预训练数据的增加,在实验中,ScienceQA、 模型架构消融试验 研究者分析了使 LLM 能够处理视觉数据的组件。随着预训练数据的增加,消融的基本配置如下:
为了提高模型的性能,研究者选择了 C-Abstractor; 数据:为了保持零样本和少样本的性能,图 5a 展示了交错数据和字幕数据不同组合的结果。 图像分辨率的影响。LLaVA-NeXT 不支持多图像推理,只需将密集语言解码器替换为 MoE 语言解码器。绝对值分别为 2.4% 和 4%。而 MM1 的 token 总数只有 720 个。他们研究了(1)如何以最佳方式预训练视觉编码器,因此其输出要么是单一的嵌入,也不支持少样本提示,
|
以绿色保险助力经济社会全面绿色转型中国正能量|一组AI关键词海报,看昂扬蓬勃的中国正能量周济院士:中国智能制造到2035年将实现数字化转型智能化升级最古老蓝冰揭示地球古气候半世纪挽救逾1.5亿人生命!这项工作全球共同做到了!泰国宋干节期间旅游业收入超1400亿泰铢封面有数丨2024五一假期出境游加速恢复,租车自驾成风潮探明青藏高原东南部黑碳气溶胶主要排放源芭堤雅昆明路演 暑期中国赴泰游有望再“升温”午评:指数全线走强创指涨2.54% 量子科技、算力概念大涨芭堤雅昆明路演 暑期中国赴泰游有望再“升温”大堡礁深处目前与全球变暖“隔绝”美国国会听证会“拷问”波音安全文化中巴高委会工业、信息技术和通信分委会第七次会议召开北京车展观察:周鸿祎爬上车顶,BBA不再人满为患最古老蓝冰揭示地球古气候2024北京车展探馆:中国车企成“流量担当” 智能汽车进一步“破圈”转化金额超五千万元番茄新品种刷新纪录经济观察:浙江 “地瓜经济”如何根深叶茂?经济观察:浙江 “地瓜经济”如何根深叶茂?三亚国际邮轮旅客吞吐量一季度首次跻身中国前三大堡礁深处目前与全球变暖“隔绝”冬眠熊蜂可在水下存活一周周济院士:中国智能制造到2035年将实现数字化转型智能化升级十项重大科技成果亮相2024中关村论坛年会巴基斯坦一煤矿发生有毒气体泄漏 致2人死亡转化金额超五千万元番茄新品种刷新纪录封面有数丨2024五一假期出境游加速恢复,租车自驾成风潮2024北京车展探馆:中国车企成“流量担当” 智能汽车进一步“破圈”Boathouse:2023年CEO调查报告佳能推出智慧点阵打印解决方案,“纸笔交互”全面提升作业效率退货包运费,次数不限!88VIP会员权益再升级「朴飞生物」完成数千万元Pre远光天鹰:企业架构管控的探索与实践国泰君安证券:一季度收3张罚单,主要涉及保荐违规等事由爆火的AI面试 逼疯打工人英特尔发布大型神经拟态系统,脑机接口未来市场发展潜力巨大AOC推出三款U3 Graphic Pro显示器:27vivo将推出自研影像品牌BlueImage:X100 Ultra首发对话Rokid创始人兼CEO祝铭明:已建设300多个线下专柜 退货率5%