paint-brush
在野外寻找人工智能生成的人脸:数据集经过@botbeat
195 讀數

在野外寻找人工智能生成的人脸:数据集

太長; 讀書

人工智能可以为网络诈骗创建逼真的假脸。这项研究提出了一种在图像中检测人工智能生成的人脸的方法。
featured image - 在野外寻找人工智能生成的人脸:数据集
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

作者:

(1)Gonzalo J. Aniano Porcile,领英;

(2)杰克·金迪(Jack Gindi),领英;

(3)Shivansh Mundra,领英;

(4)James R. Verbus,领英;

(5)Hany Farid,领英和加州大学伯克利分校。

链接表

2.数据集

我们的训练和评估利用了 18 个数据集,包括 120,000 张真实的 LinkedIn 个人资料照片和 105,900 张 AI 生成的脸部照片,这些照片来自五种不同的 GAN 和五种不同的扩散合成引擎。AI 生成的图像主要分为两类:有脸图像和无脸图像。真实和合成的彩色 (RGB) 图像从其原始分辨率调整为 512 × 512 像素。表 1 显示了这些图像的说明,图 2 显示了每个 AI 生成的类别的代表性示例,如下所述。

2.1. 真实面孔

这 12 万张真实照片是从 2019 年 1 月 1 日至 2022 年 12 月 1 日期间上传了可公开访问的个人资料照片的 LinkedIn 用户中抽样得出的。这些帐户在平台上至少有 30 天的活动(例如,登录、发布、发送消息、搜索),但未触发任何虚假帐户检测器。考虑到帐户的年龄和活动,我们可以确信这些照片是真实的。这些图像的分辨率和质量差异很大。虽然这些图像中的大多数都是由单人组成的标准个人资料照片,但有些不包含人脸。相比之下,所有 AI 生成的图像(下文介绍)都包含一张脸。我们将在第 4 节中重新讨论真实图像和虚假图像之间的这种差异。

2.2. GAN 面孔


图 2. 我们在训练和评估中使用的 AI 生成图像的代表性示例(另见表 1)。一些合成引擎仅用于生成人脸,而另一些则用于合成人脸和非人脸。为了尊重用户隐私,我们不展示真实照片的示例。



2 和 3 以 1024×1024 像素的分辨率和 ψ = 0.5 合成了彩色图像。[1] 对于 EG3D(高效几何感知 3D 生成对抗网络),即 StyleGAN 的所谓 3D 版本,我们以 512×512 的分辨率、ψ = 0.5 和随机头部姿势合成了 10,000 张图像。


我们从 generated.photos[2] 下载了总共 10,000 张分辨率为 1024 × 1024 像素的图像。这些 GAN 合成的图像通常会产生看起来更专业的头像,因为该网络是在摄影工作室拍摄的高质量图像数据集上进行训练的。

2.3. GAN 非人脸

总共下载了 5,000 张 StyleGAN 1 图像[3],分为三个非人脸类别:卧室、汽车和猫(其他 StyleGAN 版本的存储库不提供除人脸之外的其他类别的图像)。这些图像的尺寸范围从 512 × 384(汽车)到 256 × 256(卧室和猫)。

2.4. 扩散面

我们从每个稳定扩散 [26] 版本(1、2)[4] 中生成了 9,000 张图像。与上述 GAN 人脸不同,文本到图像的扩散合成可以更好地控制人脸的外观。为了确保多样性,30 个人口统计数据中的每个人口统计数据都有 300 张人脸,提示为“一张{年轻、中年、老年} {黑人、东亚、西班牙裔、南亚、白人} {女人、男人} 的照片”。这些图像以 512 × 512 的分辨率合成。这个数据集经过精心挑选,以消除明显的合成失败,例如,人脸不可见。


另外 900 张图像是从最新版本的 Stable Diffusion (xl) 合成的。使用与之前相同的人口统计类别,为 30 个类别中的每个类别生成 30 张图像,每张的分辨率为 768 × 768。


我们从 DALL-E 2 [5] 生成了 9,000 张图像,其中 30 个人口统计组各有 300 张图像。这些图像以 512×512 像素的分辨率合成。


总共下载了 1,000 张 Midjourney[6] 图像,分辨率为 512 × 512。这些图像经过手动筛选,仅包含一张脸。

2.5. 扩散非面

我们从两个版本的 Stable Diffusion(1、2)中分别合成了 1,000 张非人脸图像。这些图像是使用随机字幕(由 ChatGPT 生成)生成的,并经过人工审核以删除任何包含人或人脸的图像。这些图像以 600 × 600 像素的分辨率合成。以 512 × 512 的分辨率合成了一组类似的 1,000 张 DALL-E 2 和 1,000 张 Midjourney 图像。

2.6. 训练和评估数据

上述列举的图像集分为训练和评估,如下所示。我们的模型(第 3 节中描述)在 30,000 张真实面孔和 30,000 张 AI 生成面孔的随机子集上进行训练。AI 生成面孔由 5,250 张 StyleGAN 1、5,250 张 StyleGAN 2、4,500 张 StyleGAN 3、3,750 张 Stable Diffusion 1、3,750 张 Stable Diffusion 2 和 7,500 张 DALL-E 2 图像的随机子集组成。


我们根据以下内容评估我们的模型:


• 来自训练中使用的相同合成引擎(StyleGAN 1、StyleGAN 2、StyleGAN 3、Stable Diffusion 1、Stable Diffusion 2 和 DALL-E 2)的一组 5,000 张面部图像。


• 一组 5,000 张未用于训练的合成引擎(Generated.photos、EG3D、Stable Diffusion xl 和 Midjourney)的面部图像。


• 来自五个合成引擎(StyleGAN 1、DALL-E 2、Stable Diffusion 1、Stable Diffusion 2 和 Midjourney)的一组 3,750 张非面部图像。


• 一组13,750张真实面孔。



[1] StyleGAN 参数 ψ(通常在 [0, 1] 范围内)控制用于生成图像的潜在空间表示中种子值的截断。 ψ 值越小,图像质量越好,但面部多样性越少。 ψ = 0.5 的中间值可生成相对无伪影的面部,同时允许合成面部中存在性别、年龄和种族的变化。


[2] https://generated.photos/faces


[3] https://github.com/NVlabs/stylegan)


[4] https://github.com/Stability-AI/StableDiffusion


[5] https://openai.com/dall-e-2


[6] https://www.midjourney.com