paint-brush
जंगल में एआई-जनरेटेड चेहरे खोजना: मॉडलद्वारा@botbeat
176 रीडिंग

जंगल में एआई-जनरेटेड चेहरे खोजना: मॉडल

बहुत लंबा; पढ़ने के लिए

AI ऑनलाइन घोटालों के लिए यथार्थवादी नकली चेहरे बना सकता है। यह कार्य छवियों में AI-जनित चेहरों का पता लगाने की विधि प्रस्तावित करता है।
featured image - जंगल में एआई-जनरेटेड चेहरे खोजना: मॉडल
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

लेखक:

(1) गोंजालो जे. अनियानो पोर्सिल, लिंक्डइन;

(2) जैक गिन्डी, लिंक्डइन;

(3) शिवांश मुंद्रा, लिंक्डइन;

(4) जेम्स आर. वर्बस, लिंक्डइन;

(5) हनी फ़रीद, लिंक्डइन और यूनिवर्सिटी ऑफ़ कैलिफ़ोर्निया, बर्कले।

लिंक की तालिका

3. मॉडल

हम AI द्वारा उत्पन्न चेहरों से वास्तविक चेहरों को अलग करने के लिए एक मॉडल को प्रशिक्षित करते हैं। अंतर्निहित मॉडल EfficientNet-B1[7] कन्वोल्यूशनल न्यूरल नेटवर्क [30] है। हमने पाया कि यह आर्किटेक्चर अन्य अत्याधुनिक आर्किटेक्चर (Swin-T [22], Resnet50 [14], XceptionNet [7]) की तुलना में बेहतर प्रदर्शन प्रदान करता है। EfficientNet-B1 नेटवर्क में 7.8 मिलियन आंतरिक पैरामीटर हैं जिन्हें ImageNet1K इमेज डेटासेट [30] पर प्री-ट्रेन किया गया था।


हमारी पाइपलाइन में तीन चरण शामिल हैं: (1) एक छवि प्रीप्रोसेसिंग चरण; (2) एक छवि एम्बेडिंग चरण; और (3) एक स्कोरिंग चरण। मॉडल इनपुट के रूप में एक रंगीन छवि लेता है और [0, 1] की सीमा में एक संख्यात्मक स्कोर उत्पन्न करता है। 0 के पास स्कोर इंगित करता है कि छवि संभवतः वास्तविक है, और 1 के पास स्कोर इंगित करता है कि छवि संभवतः AI द्वारा उत्पन्न की गई है।



तालिका 2. आधारभूत प्रशिक्षण और मूल्यांकन सच्चा सकारात्मक (AI द्वारा उत्पन्न छवि को सही ढंग से वर्गीकृत करना, सभी संश्लेषण इंजनों (TPR) में औसत)। प्रत्येक स्थिति में, गलत सकारात्मक दर 0.5% है (वास्तविक चेहरे को गलत तरीके से वर्गीकृत करना (FPR))। 2TP/(2TP + FP + FN) के रूप में परिभाषित F1 स्कोर की भी रिपोर्ट की गई है। TP, FP और FN क्रमशः सच्चे सकारात्मक, झूठे सकारात्मक और झूठे नकारात्मक की संख्या का प्रतिनिधित्व करते हैं। इन-इंजन/आउट-ऑफ-इंजन इंगित करता है कि छवियों को प्रशिक्षण में उपयोग किए गए समान/अलग संश्लेषण इंजनों के साथ बनाया गया था।



छवि पूर्व प्रसंस्करण चरण इनपुट छवि का आकार 512×512 पिक्सेल के रिज़ॉल्यूशन पर बदलता है। फिर इस आकार में बदली गई रंगीन छवि को एक EfficientNet-B1 ट्रांसफ़र लर्निंग लेयर में भेजा जाता है। स्कोरिंग चरण में, ट्रांसफ़र लर्निंग लेयर का आउटपुट दो पूरी तरह से जुड़ी हुई परतों को खिलाया जाता है, जिनमें से प्रत्येक का आकार 2,048 है, जिसमें एक ReLU सक्रियण फ़ंक्शन, 0.8 ड्रॉपआउट संभावना वाली एक ड्रॉपआउट परत और एक सिग्मोइडल सक्रियण वाली अंतिम स्कोरिंग परत है। केवल स्कोरिंग परतें - 6.8 मिलियन ट्रेन करने योग्य मापदंडों के साथ - ट्यून की जाती हैं। ट्रेन करने योग्य वज़न को 32 आकार के मिनीबैच, 0.0001 की सीखने की दर और 10,000 चरणों तक प्रशिक्षित करने के साथ AdaGrad एल्गोरिथ्म का उपयोग करके अनुकूलित किया जाता है। मॉडल प्रशिक्षण के लिए 60 NVIDIA A100 GPU वाले क्लस्टर का उपयोग किया गया था।


यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।


[7] हम एफ़िशिएंटनेट मॉडल के पुराने संस्करण का वर्णन कर रहे हैं जिसे हमने पहले लिंक्डइन पर संचालित किया था जिसे अब एक नए मॉडल से बदल दिया गया है। हम मानते हैं कि यह मॉडल सबसे हालिया नहीं है, लेकिन हम अब केवल इन परिणामों की रिपोर्ट करने में सक्षम हैं क्योंकि मॉडल अब उपयोग में नहीं है।