提供了详细的训练流程,包括数据处理、预训练、指令微调以及相关的工具集,只需 1 小时时间和 1.3 元成本。
GitHub:http://github.com/jingyaogong/minimind-v
即可训练出一个 26M 参数的小型多模态视觉模型,支持单图和多图输入,同时具备识图和对话能力。
可以作为大家想实现视觉语言模型的入门教程学习。
提供了详细的训练流程,包括数据处理、预训练、指令微调以及相关的工具集,只需 1 小时时间和 1.3 元成本。
GitHub:http://github.com/jingyaogong/minimind-v
即可训练出一个 26M 参数的小型多模态视觉模型,支持单图和多图输入,同时具备识图和对话能力。
可以作为大家想实现视觉语言模型的入门教程学习。