Beangin推出了Tinyllava的完全开源
发布时间:2025-04-27 10:18
当前,已经做出了一些发展,以提高基于强化研究的多模式模型的能力。但是大多数研究人员选择7B+模型作为基础,对于许多资源有限的研究人员仍然存在重大障碍。同时,在视频概念领域,由于缺乏高质量和强大的概念数据,问答一般数据很难刺激模型的深层逻辑能力,因此某些先前初始尝试的效果几乎是不愉快的。最近,北京航空和宇航学大学的一个研究小组推出了小型视频推理模型Tinyllava-Video-R1,其体重减轻,代码和培训数据都是开放资源!这项工作证明,Onessmall模型在Q&A的一般数据集中的加强研究中也可以取得出色的结果。与使用相同数据进行维修的模型相比,Tinyllava-Video-R1具有性能改进为许多基准测试。同时,该模型还可以在训练和测试期间几次显示自我反思和回溯行为! Paper Title: Tinyllava-Video-R1: Towards a smaller LMM for video Reasoning Paper Address: https://arxiv.org/abs/2504.09641Github: https://github.com/zhangxj199/tinyllavava-video-s Chart 1 Tinyllava-Video General framework Although the existing open source of the video understanding model has a strong understanding and understanding由于不良培训数据,功能使用开放的NA视频数据资源进行培训后培训可能会引入不受控制的变量,从而影响实验结果和结论的可靠性。因此,BeanG团队选择了Tinyllava-Video,该VIDEO在训练过程中得到了完全监测的基本模型,该模型将QWEN2.5-3B用作语言和耻辱模型作为视觉编码器。尽管tinyllava-video只有3.6b参数,并且不使用大量数据NING阶段控制训练持续时间,它仍然可以在许多基准上增加许多7B+模型。 Tinyllava-Video-R1做什么?通过手动标记引入少量高质量的冷启动数据。这项工作发现,由于少量模型的能力,当使用Tinyllava-Video直接作为主要模型时,随着训练的出现,该模型具有一定的可能性,可以学习“懒惰”。尽管所有响应都符合格式要求,但它们不提供思维过程,并且响应是离子,并且通过在QWEN2-VL-2B中进行实验获得了类似的实验现象。当模型从16个手动标记的COT数据开始时,该现象将不再发生在实验过程中,并且该模型将学会更快地遵守格式要求。因此,这项任务认为理解模型的尺寸很小,甚至很少的寒冷开始都需要冷启动G数据对于稳定的模型培训非常有用。引入wrengwards的长度和回答错误是对许多现有认知活动的惩罚,只能在不增加长度奖励的情况下设置格式的奖励,但是由于小语言模型的能力,在这种环境中的培训不会增加模型响应的长度,甚至不会减少少量。在引入持续的长度奖励之后,模型的响应长度在训练过程中急剧增加,如图所示。但是,在这种情况下,该模型会产生一些毫无意义的信息以增加响应的长度,这不仅可以提高性能,而且还会导致训练时间大大增加。因此,Tinyllava-Video-R1进一步将答案的答案纳入了全部奖励中,并指出模型的响应质量有所提高,并且在整个培训过程中也可以增加Haoutput和奖励。同时,在GRPO优势的计算中,引入小噪声,与此同时,Tinyllava-Video-R1还观察到了实验中缺少优势的问题:当所有设置响应都正确并且给出了相同的奖励时,他们计算出的优势在零中丢失。这种现象会影响方法更新并降低样本效率。为了最大程度地利用每个样品,Tinyllava-Video-R1在主要计算中引入了额外的高斯噪声,以确保该组内响应的益处的变化,尽管这种噪声只会带来一点围困。实验的首先,Tinyllava-Video-R1证明,使用强化研究可以显着改善模型性能器,并且与Tinyllava-Video-R1相比,Tinyllava-Video-R1在许多基准上的性能都更好,而Tinyllava-Video-SFT则使用相同的数据来对管理的微调进行使用相同的数据。同时,Tinyllava-Video-R1了解和研究视频的内容,逐步检查每个,最后提供答案。与仅输出最终答案的模型相比,该模型可以产生重大的思考过程,从而使其答案更加解释和重要。在传统视频理解模型中,这也是视频interrence模型的重要改进和优势。与使用强化研究来提高模型推理能力的其他任务类似,贝恩格团队在Tinyllava-Video-R1中重现了“ AHA时刻”,即该模型促进了紧急验证和其他学生态度。实验结果还证明,尽管模型的尺寸较小,但使用通用视频数据训练,但可以触发模型的回溯和反射。随后的Beang团队将进一步研究视频概念模型的小规模,未来的工作将包括引入高质量的视频识别数据并改善研究的研究gorithm。同时,Tinyllava系列项目始终致力于学习有限的计算资源下的小型模型空间的培训和设计,符合理解和探索多模型模型的资源。
购买咨询电话
400-123-4567