paint-brush
जंगल में एआई-जनरेटेड चेहरे खोजना: चर्चा, आभार और संदर्भद्वारा@botbeat
127 रीडिंग

जंगल में एआई-जनरेटेड चेहरे खोजना: चर्चा, आभार और संदर्भ

बहुत लंबा; पढ़ने के लिए

AI ऑनलाइन घोटालों के लिए यथार्थवादी नकली चेहरे बना सकता है। यह कार्य छवियों में AI-जनित चेहरों का पता लगाने की विधि प्रस्तावित करता है।
featured image - जंगल में एआई-जनरेटेड चेहरे खोजना: चर्चा, आभार और संदर्भ
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

लेखक:

(1) गोंजालो जे. अनियानो पोर्सिल, लिंक्डइन;

(2) जैक गिन्डी, लिंक्डइन;

(3) शिवांश मुंद्रा, लिंक्डइन;

(4) जेम्स आर. वर्बस, लिंक्डइन;

(5) हनी फ़रीद, लिंक्डइन और यूनिवर्सिटी ऑफ़ कैलिफ़ोर्निया, बर्कले।

लिंक की तालिका

5. चर्चा

कई छवि वर्गीकरण समस्याओं के लिए, बड़े तंत्रिका मॉडल - उचित रूप से प्रतिनिधि डेटा के साथ - भेदभावपूर्ण विशेषताओं को सीखने की उनकी क्षमता के लिए आकर्षक हैं। हालाँकि, ये मॉडल प्रतिकूल हमलों के प्रति संवेदनशील हो सकते हैं [4]। यह देखा जाना बाकी है कि क्या हमारा मॉडल पिछले मॉडलों की तरह ही असुरक्षित है जिसमें प्रतिकूल शोर की अगोचर मात्रा मॉडल को भ्रमित करती है [3]। विशेष रूप से, यह देखा जाना बाकी है कि क्या स्पष्ट संरचनात्मक या अर्थ संबंधी कलाकृतियाँ जो हमने सीखी हैं, वे जानबूझकर किए गए प्रतिकूल हमलों के लिए अधिक मजबूती प्रदान करेंगी।


कम परिष्कृत हमलों के संदर्भ में, जिसमें ट्रांसकोडिंग और छवि का आकार बदलने जैसे शोधन कार्य शामिल हैं, हमारे पास


चित्र 5. एआई-जनरेटेड चेहरों और उनके सामान्यीकृत एकीकृत ग्रेडिएंट के उदाहरण, यह दर्शाते हैं कि हमारा मॉडल मुख्य रूप से चेहरे के क्षेत्रों पर केंद्रित है: (ए) औसतन 100 स्टाइलजीएएन 2 चेहरे, (बी) डीएएलएल-ई 2, (सी) मिडजर्नी, (डी, ई) स्थिर प्रसार 1,2।


दिखाया गया है कि हमारा मॉडल लॉन्ड्रिंग कार्यों की एक विस्तृत श्रृंखला में लचीला है।


एआई द्वारा निर्मित सामग्री का निर्माण और पता लगाना स्वाभाविक रूप से प्रतिकूल है, जिसमें निर्माता और डिटेक्टर के बीच कुछ हद तक पूर्वानुमानित आगे-पीछे होता है। जबकि ऐसा लग सकता है कि पता लगाना निरर्थक है, ऐसा नहीं है। लगातार डिटेक्टर बनाकर, हम क्रिएटर्स को विश्वसनीय नकली सामग्री बनाने के लिए समय और लागत का निवेश जारी रखने के लिए मजबूर करते हैं। और जबकि पर्याप्त रूप से परिष्कृत क्रिएटर संभवतः अधिकांश बचावों को दरकिनार करने में सक्षम होगा, औसत क्रिएटर ऐसा नहीं कर पाएगा।


हमारे जैसे बड़े ऑनलाइन प्लेटफ़ॉर्म पर काम करते समय, यह शमन - लेकिन उन्मूलन नहीं - रणनीति सुरक्षित ऑनलाइन स्थान बनाने के लिए मूल्यवान है। इसके अलावा, कोई भी सफल बचाव एक नहीं, बल्कि कई अलग-अलग तरीकों का इस्तेमाल करेगा जो विभिन्न कलाकृतियों का फायदा उठाते हैं। ऐसे सभी बचावों को दरकिनार करना विरोधी के लिए महत्वपूर्ण चुनौतियाँ खड़ी करेगा। यह सीखकर कि एक मजबूत कलाकृति क्या है जो संकल्प, गुणवत्ता और संश्लेषण इंजनों की एक श्रृंखला में लचीली है, यहाँ वर्णित दृष्टिकोण एक रक्षात्मक टूलकिट में एक शक्तिशाली नया उपकरण जोड़ता है।

स्वीकृतियाँ

यह कार्य लिंक्डइन[10] में प्रोफेसर हनी फ़रीद और ट्रस्ट डेटा टीम के बीच सहयोग का उत्पाद है। हम एआई-जनरेटेड चेहरे बनाने में उनकी मदद के लिए मत्यस बोहासेक को धन्यवाद देते हैं। हम इस सहयोग को सक्षम करने के लिए लिंक्डइन स्कॉलर्स[11] कार्यक्रम को धन्यवाद देते हैं। हम इस काम के समर्थन के लिए या जू, डैनियल ओल्मेडिला, किम कैप्स-तनाका, जेनेल ब्रे, शौनक चटर्जी, विदित जैन, टिंग चेन, विपिन गुप्ता, दिनेश पलानीवेलु, मिलिंदा लक्कम और नतेश पिल्लई को भी धन्यवाद देते हैं। हम स्टाइलगैन जेनरेशन सॉफ़्टवेयर, प्रशिक्षित मॉडल और संश्लेषित छवियों को सार्वजनिक रूप से उपलब्ध कराकर हमारे काम को सुविधाजनक बनाने और उनके बहुमूल्य सुझावों के लिए NVIDIA में डेविड ल्यूबके, मार्गरेट अल्ब्रेक्ट, एडविन निएडा, कोकी नागानो, जॉर्ज चेलापा, बुराक योलदेमीर और अंकित पटेल के आभारी हैं।

संदर्भ

[1] स्थिरता एआई. https://stability.ai. 1


[2] डेविड बाउ, एलेक्स एंडोनियन, ऑड्रे कुई, येओनह्वान पार्क, अली जहानियन, औड ओलिवा और एंटोनियो टोराल्बा। शब्द द्वारा पेंट करें। arXiv:2103.10951, 2021. 1


[3] निकोलस कार्लिनी और हनी फ़रीद। व्हाइट-एंड ब्लैक-बॉक्स हमलों के साथ डीपफ़ेक-इमेज डिटेक्टरों से बचना। कंप्यूटर विज़न और पैटर्न रिकग्निशन वर्कशॉप पर IEEE/CVF कॉन्फ्रेंस की कार्यवाही में, पृष्ठ 658-659, 2020। 7


[4] निकोलस कार्लिनी और डेविड वैगनर। न्यूरल नेटवर्क की मजबूती का मूल्यांकन करने की दिशा में। IEEE सिम्पोजियम ऑन सिक्योरिटी एंड प्राइवेसी में, पृष्ठ 39-57। IEEE, 2017. 7


[5] लूसी चाई, डेविड बाउ, सेर-नाम लिम और फिलिप इसोला। नकली छवियों का पता लगाने योग्य क्या है? सामान्यीकृत गुणों को समझना। कंप्यूटर विज़न पर यूरोपीय सम्मेलन में, पृष्ठ 103-120, 2020। 2


[6] एरिक आर चैन, कॉनर जेड लिन, मैथ्यू ए चैन, कोकी नागानो, बॉक्सियाओ पैन, शालिनी डी मेलो, ओराज़ियो गैलो, लियोनिडास जे गुइबास, जोनाथन ट्रेम्बले, समेह खमीस, एट अल। कुशल ज्यामिति-जागरूक 3डी जनरेटिव एडवर्सरियल नेटवर्क। इंटरनेशनल कॉन्फ्रेंस ऑन कंप्यूटर विज़न एंड पैटर्न रिकॉग्निशन में, पृष्ठ 16123-16133, 2022। 2


[7] फ़्राँस्वा चोलेट. एक्ससेप्शन: डेप्थवाइज़ सेपरेबल कन्वोल्यूशन के साथ डीप लर्निंग. arXiv:1610.02357, 2017. 4


[8] रिकार्डो कोर्वी, डेविड कोज़ोलिनो, जियाडा ज़िंगारिनी, जियोवानी पोगी, कोकी नागानो और लुइसा वर्डोलिवा। प्रसार मॉडल द्वारा उत्पन्न सिंथेटिक छवियों का पता लगाने पर। ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग पर अंतर्राष्ट्रीय सम्मेलन में, पृष्ठ 1-5। IEEE, 2023. 2, 5, 7


[9] चेंगडोंग डोंग, अजय कुमार, और एरयून लियू। स्पेक्ट्रल डोमेन छापों से GAN द्वारा उत्पन्न नकली छवियों का पता लगाने से पहले दो बार सोचें। कंप्यूटर विज़न और पैटर्न पहचान पर अंतर्राष्ट्रीय सम्मेलन में, पृष्ठ 7865-7874, 2022। 2


[10] हनी फ़रीद। डीप फ़ेक बनाना, इस्तेमाल करना, दुरुपयोग करना और उनका पता लगाना। जर्नल ऑफ़ ऑनलाइन ट्रस्ट एंड सेफ़्टी, 1(4), 2022. 2


[11] जोएल फ्रैंक, थोरस्टन ईसेनहोफर, ली शॉनहेर, असजा फिशर, डोरोथिया कोलोसा और थोरस्टन होल्ज़। डीप फेक इमेज पहचान के लिए फ़्रीक्वेंसी विश्लेषण का लाभ उठाना। arXiv:2003.08685, 2020. 2


[12] डिएगो ग्रैग्नानिएलो, डेविड कोज़ोलिनो, फ्रांसेस्को मार्रा, जियोवानी पोगी और लुइसा वर्डोलिवा। क्या GAN जनरेटेड इमेज का पता लगाना आसान है? स्टेट-ऑफ़-द-हार्ट का एक महत्वपूर्ण विश्लेषण। IEEE इंटरनेशनल कॉन्फ्रेंस ऑन मल्टीमीडिया एंड एक्सपो में, पृष्ठ 1-6, 2021। 2


[13] हुई गुओ, शू हू, शिन वांग, मिंग-चिंग चांग, और सिवेई ल्यू। आंखें सब कुछ बता देती हैं: अनियमित पुतलियों के आकार से गण-जनित चेहरे का पता चलता है। IEEE इंटरनेशनल कॉन्फ्रेंस ऑन एकॉस्टिक्स, स्पीच एंड सिग्नल प्रोसेसिंग में, पृष्ठ 2904-2908। IEEE, 2022. 2


[14] काइमिंग हे, ज़ियांग्यु झांग, शाओकिंग रेन, और जियान सन। छवि पहचान के लिए गहन अवशिष्ट शिक्षण। arXiv: 1512.03385, 2015. 4


[15] शू हू, यूज़ुन ली, और सिवेई ल्यू। असंगत कॉर्नियल स्पेक्युलर हाइलाइट्स का उपयोग करके GAN जनरेटेड चेहरों को उजागर करना। IEEE इंटरनेशनल कॉन्फ्रेंस ऑन एकॉस्टिक्स, स्पीच एंड सिग्नल प्रोसेसिंग में, पृष्ठ 2500-2504। IEEE, 2021. 2


[16] टेरो कर्रास, टिमो आइला, सैमुली लेन और जाको लेह्टिनन। बेहतर गुणवत्ता, स्थिरता और विविधता के लिए GANs की प्रगतिशील वृद्धि। arXiv:1710.10196, 2017. 1


[17] टेरो कर्रास, मिका ऐट्टाला, सैमुली लेन, एरिक हार्क ¨ ओनेन, ¨ जान्ने हेल्स्टन, जाको लेह्टिनन, और टिमो आइला। उपनाम-मुक्त उत्पादक प्रतिकूल नेटवर्क. न्यूरल इंफॉर्मेशन प्रोसेसिंग सिस्टम, 2021. 1, 2


[18] टेरो कर्रास, सैमुली लेन और टिमो आइला। जनरेटिव एडवर्सरियल नेटवर्क के लिए स्टाइल-आधारित जनरेटर आर्किटेक्चर। कंप्यूटर विज़न और पैटर्न रिकॉग्निशन पर अंतर्राष्ट्रीय सम्मेलन में, पृष्ठ 4401-4410, 2019। 1, 2


[19] टेरो कर्रास, सैमुली लेन, मिका ऐट्टाला, जान्ने हेल्स्टन, जाको लेह्टिनन और टिमो आइला। स्टाइलगैन की छवि गुणवत्ता का विश्लेषण और सुधार करना। कंप्यूटर विज़न और पैटर्न रिकॉग्निशन पर अंतर्राष्ट्रीय सम्मेलन में, पृष्ठ 8110-8119, 2020. 2


[20] डेविड सी नील, डेविड फील्ड और डैनियल केर्स्टेंट। फ्रैक्टल छवियों का मानवीय भेदभाव। जोसा ए, 7(6):1113–1123, 1990. 1


[21] बो लियू, फैन यांग, ज़िउली बी, बिन ज़ियाओ, वेइशेंग ली, और ज़िनबो गाओ। वास्तविक छवियों द्वारा उत्पन्न छवियों का पता लगाना। कंप्यूटर विज़न पर यूरोपीय सम्मेलन में, पृष्ठ 95-110. स्प्रिंगर, 2022. 2


[22] ज़ी लियू, यूटोंग लिन, यू काओ, हान हू, यिक्सुआन वेई, झेंग झांग, स्टीफन लिन, और बेनिंग गुओ। स्विन ट्रांसफार्मर: स्थानांतरित खिड़कियों का उपयोग करके पदानुक्रमित दृष्टि ट्रांसफार्मर। IEEE/CVF इंटरनेशनल कॉन्फ्रेंस ऑन कंप्यूटर विज़न, 2021 में। 4


[23] शिवांश मुंद्रा, गोंजालो जे. अनियानो पोर्सिल, स्मित मार्वानिया, जेम्स आर. वर्बस और हनी फ़रीद। कॉम्पैक्ट एम्बेडिंग से गैंगेनरेटेड प्रोफ़ाइल फ़ोटो को उजागर करना। इंटरनेशनल कॉन्फ्रेंस ऑन कंप्यूटर विज़न एंड पैटर्न रिकॉग्निशन वर्कशॉप, 2023 में। 2, 7


[24] सोफी जे नाइटिंगेल और हनी फ़रीद। एआई-संश्लेषित चेहरे वास्तविक चेहरों से अलग नहीं होते और ज़्यादा भरोसेमंद होते हैं। नेशनल एकेडमी ऑफ़ साइंसेज की कार्यवाही, 119(8):e2120481119, 2022. 2


[25] जेवियर पोर्टिला और ईरो पी सिमोनसेली। जटिल वेवलेट गुणांकों के संयुक्त सांख्यिकी पर आधारित एक पैरामीट्रिक बनावट मॉडल। इंटरनेशनल जर्नल ऑफ़ कंप्यूटर विज़न, 40:49–70, 2000. 1


[26] रॉबिन रोम्बच, एंड्रियास ब्लाटमैन, डोमिनिक लोरेंज, पैट्रिक एस्सर और ब्योर्न ओमर। लेटेंट डिफ्यूजन मॉडल के साथ हाई-रिज़ॉल्यूशन इमेज सिंथेसिस। इंटरनेशनल कॉन्फ्रेंस ऑन कंप्यूटर विज़न एंड पैटर्न रिकॉग्निशन में, पृष्ठ 10684-10695, 2022। 1, 4


[27] पवन सिन्हा, बेंजामिन बालास, यूरी ओस्ट्रोव्स्की और रिचर्ड रसेल। मनुष्यों द्वारा चेहरा पहचानना: उन्नीस परिणाम जिनके बारे में सभी कंप्यूटर विज़न शोधकर्ताओं को पता होना चाहिए। IEEE की कार्यवाही, 94(11):1948–1962, 2006. 6


[28] मुकुंद सुंदरराजन, अंकुर टाली और किकी यान। डीप नेटवर्क के लिए स्वयंसिद्ध विशेषताएँ। arXiv: 1703.01365, 2017. 6


[29] चुआंगचुआंग टैन, याओ झाओ, शिकुई वेई, गुआंगुआ गु, और युंचाओ वेई। ग्रेडिएंट पर सीखना: GAN-जनरेटेड इमेज डिटेक्शन के लिए सामान्यीकृत आर्टिफैक्ट्स प्रतिनिधित्व। इंटरनेशनल कॉन्फ्रेंस ऑन कंप्यूटर विज़न एंड पैटर्न रिकॉग्निशन में, पृष्ठ 12105-12114, 2023। 2


[30] मिंगक्सिंग टैन और क्वोक वी. ले. एफ़िशिएंटनेट: कन्वोल्यूशनल न्यूरल नेटवर्क के लिए मॉडल स्केलिंग पर पुनर्विचार। arXiv: 1905.11946, 2020. 4


[31] पीटर थॉम्पसन. मार्गरेट थैचर: एक नया भ्रम. परसेप्शन, 9(4):483–484, 1980. 6


[32] शेंग-यू वांग, ओलिवर वांग, रिचर्ड झांग, एंड्रयू ओवेन्स और एलेक्सी ए एफ्रोस। सीएनएन द्वारा उत्पन्न छवियों को पहचानना आश्चर्यजनक रूप से आसान है... अभी के लिए। इंटरनेशनल कॉन्फ्रेंस ऑन कंप्यूटर विज़न एंड पैटर्न रिकॉग्निशन में, पृष्ठ 8695-8704, 2020। 2


[33] शिन यांग, यूज़ुन ली, और सिवेई ल्यू। असंगत हेड पोज़ का उपयोग करके डीप फ़ेक को उजागर करना। IEEE इंटरनेशनल कॉन्फ्रेंस ऑन एकॉस्टिक्स, स्पीच एंड सिग्नल प्रोसेसिंग में, पृष्ठ 8261-8265। IEEE, 2019. 2


[34] शिन यांग, यूज़ुन ली, होंगगांग क्यू, और सिवेई ल्यू। लैंडमार्क स्थानों का उपयोग करके GAN-संश्लेषित चेहरों को उजागर करना। सूचना छिपाने और मल्टीमीडिया सुरक्षा पर ACM कार्यशाला में, पृष्ठ 113-118, 2019। 2


[35] जू झांग, स्वेबोर करमन, और शिह-फू चांग। GAN नकली छवियों में कलाकृतियों का पता लगाना और उनका अनुकरण करना। IEEE इंटरनेशनल वर्कशॉप ऑन इन्फॉर्मेशन फोरेंसिक्स एंड सिक्योरिटी में, पृष्ठ 1-6, 2019। 2


यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।


[10] इस कार्य में वर्णित मॉडल का उपयोग किसी भी लिंक्डइन सदस्य पर कार्रवाई करने के लिए नहीं किया जाता है।


[11] https://careers.linkedin.com/scholars