概述:仅需 8B 参数就能达到 GPT-4o 级别的轻量级多模态模型,集成了视觉、语音和文本处理能力,可以在手机等移动设备上流畅运行,支持实时视频分析、语音对话等功能,并且对学术免费,
@OpenBMB
团队开发。
视觉能力出色:
· 在 OpenCompass 评测中平均得分 70.2
· 可处理高达 180 万像素的图像
· OCR 能力在 25B 以下参数量的模型中表现最佳
· 支持 30 多种语言的多语言处理
语音处理能力:
· 支持中英双语实时语音对话
· 具备语音克隆、情感控制、语速调节等功能
· 在语音理解和转录方面表现优异
实时流媒体处理:
· 可以同时处理连续的视频和音频流
· 支持实时语音交互
· 在 StreamingBench 测试中表现出色
高效性:
· 处理图像时的 token 密度高,比其他模型节省 75% 的 token 数量
· 推理速度快,延迟低
· 内存占用小,功耗低
· 可在 iPad 等终端设备上运行
使用便利性:
· 支持多种部署方式:CPU 推理(llama.cpp)、量化模型(int4)
· 提供高吞吐量推理支持(vLLM)
· 可以使用 LLaMA-Factory 进行微调
· 提供简单的 WebUI 演示界面
· 有中国和美国的在线 demo 服务器
HuggingFace:
https://huggingface.co/openbmb/MiniCPM-o-2_6
Github:
https://github.com/OpenBMB/MiniCPM-o
Demo:
https://minicpm-omni-webdemo-us.modelbest.cn