核心功能
模型使用 Vision Transformer (ViT) 技术,基于谷歌的`vit-base-patch16-224-in21k`,在 ImageNet-21k 数据集上预训练,之后用80,000张包含“正常”和“NSFW”两类的专有数据集进行微调,主要用途是识别和过滤不雅或敏感图片,适用于内容审核和安全过滤场景。
技术亮点
· 模型架构:采用 ViT,类似 BERT 的图像处理版本,擅长捕捉图像中的细微模式
· 训练细节:使用16的批次大小和5e-5的学习率,确保模型在快速学习和稳定优化间平衡。训练数据集多样,包含80,000张图片
· 性能表现:模型评估显示高准确率(98.04%),运行效率也不错(每秒处理52.46个样本)
使用方法
1. 高层次 API:通过 Hugging Face 的 pipeline 接口,加载模型后直接对图片进行分类,判断是“正常”还是 “NSFW”
2. YOLOv9 版本:使用 ONNX 格式的 YOLOv9 模型进行推理,需要指定图片路径、模型文件和标签文件,适合更定制化的需求
局限性
· 模型专为 NSFW 分类优化,应用到其他任务可能需要额外微调
· 性能受训练数据质量影响,用户需根据具体场景验证模型效果
实际应用
这个模型适合需要内容过滤的平台,如社交媒体、论坛或内容分享应用。用户需注意负责任使用,遵守相关内容法规。