具有性别标签的数据集 #机器学习#

发表评论 / 网络知识 / 作者： macdown.net

具有性别标签的数据集汇总，希望给到帮助

一、IMDB-WIKI – 500k+ face images with age and gender labels

下载链接： https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/
标签：性别和年龄。
数据规模：总计100，000名最受欢迎的演员的五十多万张图片。
描述：该数据集只使用第二强人脸检测值低于阈值的照片。为了使网络对所有年龄都具有同等的歧视性，对培训的年龄分布进行了均衡。

二、Adience

下载链接：https://talhassner.github.io/home/projects/Adience/Adience-data.html
标签：性别、在野外。
数据规模：照片总数26580，主题数目2284。
描述：该数据集中包含的数据旨在尽可能真实地应对现实世界成像条件的挑战。特别是，它试图捕捉所有的变化，在外观，噪音，姿态，照明和更多，可以预期的图像，而不是精心准备或摆姿势。

三、MSU LFW+ Database

下载链接：http://biometrics.cse.msu.edu/Publications/Databases/MSU_LFW+/
标签：年龄、性别和种族。
数据规模：照片总数为15，699左右。
描述：适用于研究无约束环境下人脸识别的数据库。该数据先通过一些关键词（宝贝、孩子）从谷歌找到了5000张的图片，然后应用Viola-Jones[54]人脸检测器生成一组候选人脸。最后，手动删除虚假人脸检测，以及大多数似乎年龄在20岁以上的受试者。每个面部图像提供了年龄，性别和种族三种标签。

四、Indian Movie Face database (IMFDB)

下载链接：http://cvit.iiit.ac.in/projects/IMFDB/
标签：性别、标签和年龄等。
数据规模：由100多个视频收集的100个印度演员的34512张图像组成。
描述：印度电影人脸数据库（IMFDB）是一个大型无约束的人脸数据库，手动选择所有图像并从视频帧中裁剪，导致比例，姿势，表情，照明，年龄，分辨率，遮挡和化妆的高度可变性。IMFDB是第一个面部数据库，它根据年龄，姿势，性别，表情和遮挡类型提供每个图像的详细注释，可以帮助其他面部相关的应用程序。为了确保演员的外观多样化，电影选自5种印度语。对于每个演员，选择电影使得他们在年龄上有很大的变化。

五、McGillFaces Database

下载链接：https://sites.google.com/site/meltemdemirkus/mcgill-unconstrained-face-video-database/
标签：性别。
数据规模：60个视频序列的18000个640×480分辨率的视频帧。
描述：是一个视频序列数据库，用于研究视频中无约束的人脸分类问题。该数据库包含来自60个视频序列的18000个640×480分辨率的视频帧，每个视频帧记录来自不同的主题（31位女性和29位男性）。每个视频都是在不同的环境（室内或室外）中收集的，从而产生任意照明条件和背景杂乱。此外，受试者的动作完全自由，导致任意面部比例，任意面部表情，头部姿势（偏航，俯仰和滚动），运动模糊以及局部或全局遮挡。男女性别比较交均衡。

六、AR Face Database

下载链接：http://www2.ece.ohio-state.edu/~aleix/ARdatabase.html
标签：性别。
数据规模：126人（超过4000张彩色图片）。
描述：它包含4000多张彩色图像，对应126个人的脸（70名男性和56名女性，性别比例较均衡）。照片是在严格控制的条件下在CVC拍摄的。对参加者没有任何限制（衣服，眼镜等），化妆，发型等。

七、UTKFace Large Scale Face Dataset

下载链接：https://susanqq.github.io/UTKFace/
标签：年龄，性别和种族。
数据规模：有野外20k+脸部图像组成（一张图像中只有一个人脸）。
描述：UTKFace数据集是一个具有较长年龄跨度（范围从0到116岁）的大型人脸数据集。该数据集包含20,000多张面部图像，其中包含年龄，性别和种族的注释。图像覆盖了姿势，面部表情，光照，遮挡，分辨率等的大变化。该数据集可用于各种任务，例如，面部检测，年龄估计，年龄进展/回归，地标定位等。

八、Large-scale CelebFaces Attributes (CelebA) Dataset

下载链接：http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
标签：40个二进制属性（第21个为性别）。
数据规模：超过200K的名人图像。
描述：（注：CelebA数据集仅可用于非商业研究目的）CelebFaces属性数据集（CelebA）是一个大型的人脸属性数据集，拥有超过200K的名人图像，每个图像都有40个属性注释。此数据集中的图像覆盖了大的姿势变化和背景杂乱。CelebA拥有大量的多样性，大批量和丰富的注释，包括
10,177个身份，
- 202,599个面部图像的数量，和
- 5个地标位置，每个图像40个二进制属性注释。

数据集可用作以下计算机视觉任务的训练和测试集：面部属性识别，面部检测和地标（或面部部分）定位。

九、The Asian Face Age Dataset (AFAD)

下载链接：http://afad-dataset.github.io/
标签：年龄和性别。
数据规模：160k以上。
描述：亚洲人脸年龄数据集(AFAD)是一种用于评估年龄估计性能的新数据集，包含160 K以上的人脸图像和相应的年龄和性别标签。所有的人脸图像都是针对亚洲人脸的。AFAD数据集是通过收集特定社交网络上的自拍照片而建立的-人人网[5]。RSN广泛应用于包括中学生、高中生、本科生和研究生在内的亚洲学生。

发表评论取消回复