paint-brush
বন্য মধ্যে AI-উত্পাদিত মুখ খোঁজা: মডেলদ্বারা@botbeat
176 পড়া

বন্য মধ্যে AI-উত্পাদিত মুখ খোঁজা: মডেল

অতিদীর্ঘ; পড়তে

AI অনলাইন স্ক্যামের জন্য বাস্তবসম্মত জাল মুখ তৈরি করতে পারে। এই কাজটি চিত্রগুলিতে এআই-উত্পন্ন মুখগুলি সনাক্ত করার একটি পদ্ধতি প্রস্তাব করে।
featured image - বন্য মধ্যে AI-উত্পাদিত মুখ খোঁজা: মডেল
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

লেখক:

(1) Gonzalo J. Aniano Porcile, LinkedIn;

(2) জ্যাক গিন্ডি, লিঙ্কডইন;

(3) শিবংশ মুন্দ্রা, লিঙ্কডইন;

(4) জেমস আর. ভার্বাস, লিঙ্কডইন;

(5) হ্যানি ফরিদ, লিঙ্কডইন এবং ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে।

লিঙ্কের টেবিল

3. মডেল

AI-উত্পন্ন মুখ থেকে বাস্তবকে আলাদা করার জন্য আমরা একটি মডেলকে প্রশিক্ষণ দিই। অন্তর্নিহিত মডেল হল EfficientNet-B1[7] কনভোলিউশনাল নিউরাল নেটওয়ার্ক [30]। আমরা দেখতে পেয়েছি যে এই স্থাপত্যটি অন্যান্য অত্যাধুনিক আর্কিটেকচারের তুলনায় আরও ভাল কর্মক্ষমতা প্রদান করে (Swin-T [22], Resnet50 [14], XceptionNet [7])। EfficientNet-B1 নেটওয়ার্কে 7.8 মিলিয়ন অভ্যন্তরীণ প্যারামিটার রয়েছে যেগুলি ImageNet1K ইমেজ ডেটাসেটে প্রাক-প্রশিক্ষিত ছিল [30]।


আমাদের পাইপলাইন তিনটি পর্যায় নিয়ে গঠিত: (1) একটি চিত্র প্রিপ্রসেসিং পর্যায়; (2) একটি ইমেজ এমবেডিং পর্যায়; এবং (3) একটি স্কোরিং মঞ্চ। মডেলটি একটি রঙিন চিত্র ইনপুট হিসাবে নেয় এবং পরিসরে একটি সংখ্যাসূচক স্কোর তৈরি করে [0, 1]। ০ এর কাছাকাছি স্কোর ইঙ্গিত দেয় যে ছবিটি সম্ভবত বাস্তব, এবং 1 এর কাছাকাছি স্কোর ইঙ্গিত দেয় যে ছবিটি সম্ভবত AI-উত্পন্ন।



সারণী 2. বেসলাইন প্রশিক্ষণ এবং মূল্যায়ন সত্য ইতিবাচক (একটি এআই-উত্পন্ন চিত্রকে সঠিকভাবে শ্রেণিবদ্ধ করা, সমস্ত সংশ্লেষণ ইঞ্জিন (টিপিআর) জুড়ে গড়)। প্রতিটি অবস্থায়, মিথ্যা ইতিবাচক হার হল 0.5% (ভুলভাবে একটি বাস্তব মুখ (FPR) শ্রেণীবদ্ধ করা)। এছাড়াও রিপোর্ট করা হয়েছে F1 স্কোর 2TP/(2TP + FP + FN) হিসাবে সংজ্ঞায়িত। TP, FP, এবং FN যথাক্রমে সত্য ইতিবাচক, মিথ্যা ধনাত্মক এবং মিথ্যা নেতিবাচক সংখ্যার প্রতিনিধিত্ব করে। ইন-ইঞ্জিন/ইঞ্জিনের বাইরে ইঙ্গিত করে যে চিত্রগুলি প্রশিক্ষণে ব্যবহৃত একই/ভিন্ন সংশ্লেষণ ইঞ্জিন দিয়ে তৈরি করা হয়েছিল।



ইমেজ প্রি-প্রসেসিং স্টেপ ইনপুট ইমেজকে 512×512 পিক্সেল রেজোলিউশনে রিসাইজ করে। এই রিসাইজ করা কালার ইমেজটি তারপর একটি EfficientNet-B1 ট্রান্সফার লার্নিং লেয়ারে পাঠানো হয়। স্কোরিং পর্যায়ে, ট্রান্সফার লার্নিং লেয়ারের আউটপুট দুটি সম্পূর্ণ সংযুক্ত লেয়ারে দেওয়া হয়, যার প্রতিটি সাইজ 2,048, একটি ReLU অ্যাক্টিভেশন ফাংশন সহ, 0.8 ড্রপআউট সম্ভাবনা সহ একটি ড্রপআউট স্তর এবং একটি সিগমায়েডাল অ্যাক্টিভেশন সহ একটি চূড়ান্ত স্কোরিং স্তর। শুধুমাত্র স্কোরিং স্তর - 6.8 মিলিয়ন প্রশিক্ষণযোগ্য প্যারামিটার সহ - টিউন করা হয়েছে। প্রশিক্ষণযোগ্য ওজনগুলি AdaGrad অ্যালগরিদম ব্যবহার করে অপ্টিমাইজ করা হয়েছে সাইজ 32 এর একটি মিনিব্যাচ, 0.0001 শেখার হার, এবং 10,000 ধাপ পর্যন্ত প্রশিক্ষিত। মডেল প্রশিক্ষণের জন্য 60টি NVIDIA A100 GPU সহ একটি ক্লাস্টার ব্যবহার করা হয়েছিল।


এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


[৭] আমরা EfficientNet মডেলের একটি পুরানো সংস্করণ বর্ণনা করছি যা আমরা পূর্বে LinkedIn-এ চালু করেছি যা একটি নতুন মডেল দিয়ে প্রতিস্থাপিত হয়েছে। আমরা স্বীকার করি যে এই মডেলটি সবচেয়ে সাম্প্রতিক নয়, কিন্তু আমরা এখন শুধুমাত্র এই ফলাফলগুলি রিপোর্ট করতে সক্ষম হয়েছি যেহেতু মডেলটি আর ব্যবহার করা হচ্ছে না৷