MiniCPM-o-2.6: 手机可用的多模态 AI 语言模型

概述：仅需 8B 参数就能达到 GPT-4o 级别的轻量级多模态模型，集成了视觉、语音和文本处理能力，可以在手机等移动设备上流畅运行，支持实时视频分析、语音对话等功能，并且对学术免费，
@OpenBMB
团队开发。
视觉能力出色：
· 在 OpenCompass 评测中平均得分 70.2
· 可处理高达 180 万像素的图像
· OCR 能力在 25B 以下参数量的模型中表现最佳
· 支持 30 多种语言的多语言处理
语音处理能力：
· 支持中英双语实时语音对话
· 具备语音克隆、情感控制、语速调节等功能
· 在语音理解和转录方面表现优异
实时流媒体处理：
· 可以同时处理连续的视频和音频流
· 支持实时语音交互
· 在 StreamingBench 测试中表现出色
高效性：
· 处理图像时的 token 密度高，比其他模型节省 75% 的 token 数量
· 推理速度快，延迟低
· 内存占用小，功耗低
· 可在 iPad 等终端设备上运行
使用便利性：
· 支持多种部署方式：CPU 推理(llama.cpp)、量化模型(int4)
· 提供高吞吐量推理支持(vLLM)
· 可以使用 LLaMA-Factory 进行微调
· 提供简单的 WebUI 演示界面
· 有中国和美国的在线 demo 服务器
HuggingFace:
https://huggingface.co/openbmb/MiniCPM-o-2_6
Github:
https://github.com/OpenBMB/MiniCPM-o
Demo:
https://minicpm-omni-webdemo-us.modelbest.cn