paint-brush
Trouver des visages générés par l'IA dans la nature : modèlepar@botbeat
176 lectures

Trouver des visages générés par l'IA dans la nature : modèle

Trop long; Pour lire

L’IA peut créer de faux visages réalistes pour les escroqueries en ligne. Ce travail propose une méthode pour détecter les visages générés par l’IA dans les images.
featured image - Trouver des visages générés par l'IA dans la nature : modèle
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

Auteurs:

(1) Gonzalo J. Aniano Porcile, LinkedIn ;

(2) Jack Gindi, LinkedIn ;

(3) Shivansh Mundra, LinkedIn ;

(4) James R. Verbus, LinkedIn ;

(5) Hany Farid, LinkedIn et Université de Californie, Berkeley.

Tableau des liens

3. Modèle

Nous entraînons un modèle pour distinguer les visages réels des visages générés par l'IA. Le modèle sous-jacent est le réseau neuronal convolutionnel EfficientNet-B1 [7] [30]. Nous avons constaté que cette architecture offre de meilleures performances par rapport aux autres architectures de pointe (Swin-T [22], Resnet50 [14], XceptionNet [7]). Le réseau EfficientNet-B1 possède 7,8 millions de paramètres internes qui ont été pré-entraînés sur l'ensemble de données d'image ImageNet1K [30].


Notre pipeline se compose de trois étapes : (1) une étape de prétraitement de l'image ; (2) une étape d'intégration d'image ; et (3) une étape de notation. Le modèle prend en entrée une image couleur et génère un score numérique compris dans la plage [0, 1]. Des scores proches de 0 indiquent que l’image est probablement réelle, et des scores proches de 1 indiquent que l’image est probablement générée par l’IA.



Tableau 2. Formation de base et évaluation vraiment positive (classification correcte d'une image générée par l'IA, moyenne sur tous les moteurs de synthèse (TPR)). Dans chaque condition, le taux de faux positifs est de 0,5 % (classification incorrecte d'un vrai visage (FPR)). Le score F1 défini comme 2TP/(2TP + FP + FN) est également indiqué. TP, FP et FN représentent respectivement le nombre de vrais positifs, de faux positifs et de faux négatifs. Dans le moteur/hors moteur indique que les images ont été créées avec les mêmes/différents moteurs de synthèse que ceux utilisés dans la formation.



L'étape de prétraitement de l'image redimensionne l'image d'entrée à une résolution de 512 × 512 pixels. Cette image couleur redimensionnée est ensuite transmise à une couche d'apprentissage de transfert EfficientNet-B1. Au cours de l'étape de notation, la sortie de la couche d'apprentissage par transfert est transmise à deux couches entièrement connectées, chacune de taille 2 048, avec une fonction d'activation ReLU, une couche d'abandon avec une probabilité d'abandon de 0,8 et une couche de notation finale avec une activation sigmoïde. Seules les couches de notation – avec 6,8 millions de paramètres pouvant être entraînés – sont réglées. Les poids pouvant être entraînés sont optimisés à l'aide de l'algorithme AdaGrad avec un mini-lot de taille 32, un taux d'apprentissage de 0,0001 et entraînés jusqu'à 10 000 étapes. Un cluster avec 60 GPU NVIDIA A100 a été utilisé pour la formation du modèle.


Cet article est disponible sur arxiv sous licence CC 4.0.


[7] Nous décrivons une ancienne version du modèle EfficientNet que nous avons précédemment opérationnalisé sur LinkedIn et qui a depuis été remplacée par un nouveau modèle. Nous reconnaissons que ce modèle n'est pas le plus récent, mais nous ne pouvons rapporter ces résultats que maintenant puisque le modèle n'est plus utilisé.