এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) ঝিহাং রেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: peter.zhren@berkeley.edu);
(2) জেফারসন ওর্তেগা, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: jefferson_ortega@berkeley.edu);
(3) ইফান ওয়াং, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: wyf020803@berkeley.edu);
(4) ঝিমিন চেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: zhimin@berkeley.edu);
(5) ইউনহুই গুও, ডালাসে টেক্সাস বিশ্ববিদ্যালয় (ইমেল: yunhui.guo@utdallas.edu);
(6) স্টেলা এক্স ইউ, ইউনিভার্সিটি অফ ক্যালিফোর্নিয়া, বার্কলে এবং ইউনিভার্সিটি অফ মিশিগান, অ্যান আর্বার (ইমেল: stellayu@umich.edu);
(7) ডেভিড হুইটনি, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: dwhitney@berkeley.edu)।
এই গবেষণায়, আমরা প্রসঙ্গ টাস্কে একটি নতুন আবেগ স্বীকৃতির প্রস্তাব দিই, যেমন প্রতিটি ভিডিও ফ্রেমে প্রসঙ্গ এবং চরিত্রের তথ্য উভয়ের মাধ্যমে নির্বাচিত চরিত্রের ভ্যালেন্স এবং উত্তেজনা অনুমান করা। এখানে, আমরা প্রসঙ্গ টাস্কে নতুন আবেগ স্বীকৃতির মানদণ্ডের জন্য একটি সাধারণ বেসলাইন মডেল প্রস্তাব করি। মডেলটির পাইপলাইন চিত্র 8-এ দেখানো হয়েছে। আমরা দুটি সাধারণ সাবমডিউল গ্রহণ করেছি: বৈশিষ্ট্য নিষ্কাশনের জন্য একটি কনভোল্যুশনাল নিউরাল নেটওয়ার্ক (CNN) মডিউল এবং অস্থায়ী তথ্য প্রক্রিয়াকরণের জন্য একটি ভিজ্যুয়াল ট্রান্সফরমার মডিউল। CNN মডিউল কাঠামো Resnet50 [21] থেকে গৃহীত হয়। CAER [৩৩] এবং ইমোটিক [৩২] এর বিপরীতে, যেখানে মুখের/চরিত্র এবং প্রসঙ্গ বৈশিষ্ট্যগুলি আলাদাভাবে বের করা হয় এবং পরে একত্রিত করা হয়, আমরা সরাসরি সম্পূর্ণরূপে অবহিত ফ্রেমটিকে এনকোড করি। একটি একক ভবিষ্যদ্বাণীর জন্য, পরপর N ভিডিও ফ্রেমগুলি স্বাধীনভাবে এনকোড করা হয়৷ তারপরে, পরপর ফ্রেমের বৈশিষ্ট্য ভেক্টরগুলিকে প্রথম অবস্থানে এমবেড করা হয় এবং ট্রান্সফরমার এনকোডারে খাওয়ানো হয় যাতে মনোযোগ মডিউলগুলির L সেট থাকে। অবশেষে, উত্তেজনা এবং ভ্যালেন্সের ভবিষ্যদ্বাণী একটি মাল্টিলেয়ার পারসেপ্ট্রন (এমএলপি) হেড দ্বারা সম্পন্ন হয়।
আমাদের বেসলাইন মডেলের ক্ষতি ফাংশন দুটি পৃথক ক্ষতির একটি ওজনযুক্ত সমন্বয়। MSE ক্ষতি রেটিং এবং মডেল ভবিষ্যদ্বাণীর গ্রাউন্ড ট্রুথের স্থানীয় প্রান্তিককরণকে নিয়মিত করে। বৃহত্তর স্কেলে রেটিং এবং ভবিষ্যদ্বাণীগুলির সারিবদ্ধকরণের গ্যারান্টি দেওয়ার জন্য, যেমন আবেগগত রেটিংগুলির সাময়িক পরিসংখ্যান শেখার জন্য, আমরা নিয়মিতকরণ হিসাবে কনকর্ডেন্স কোরিলেশন কোফিসিয়েন্ট (CCC) ব্যবহার করি। এই সহগ নিম্নরূপ সংজ্ঞায়িত করা হয়,
SAGR পরিমাপ করে যে দুটি ভেক্টর X এবং Y-এর পৃথক মানের চিহ্ন কতটা মিলে যায়। এটি [0, 1]-এ মানগুলি গ্রহণ করে, যেখানে 1 সম্পূর্ণ চুক্তির প্রতিনিধিত্ব করে এবং 0 একটি সম্পূর্ণ দ্বন্দ্ব উপস্থাপন করে। SAGR মেট্রিক অন্যদের তুলনায় অতিরিক্ত কর্মক্ষমতা তথ্য ক্যাপচার করতে পারে। উদাহরণস্বরূপ, 0.2 এর একটি ভ্যালেন্স গ্রাউন্ড ট্রুথ দেওয়া হলে, 0.7 এবং -0.3 এর ভবিষ্যদ্বাণী একই RMSE মান নিয়ে যাবে। কিন্তু স্পষ্টতই, 0.7 আরও উপযুক্ত কারণ এটি একটি ইতিবাচক ভ্যালেন্স।
আমরা পূর্বোক্ত 4টি মেট্রিক্স, CCC, PCC, RMSE এবং SAGR ব্যবহার করে প্রসঙ্গ টাস্কে নতুন আবেগ স্বীকৃতির মানদণ্ড তৈরি করি। ফলাফলগুলি সারণী 3-এ দেখানো হয়েছে। অন্যান্য ডেটাসেটের তুলনায়, আমাদের প্রস্তাবিত সহজ পদ্ধতিটি তাদের ডেটাসেটের অত্যাধুনিক পদ্ধতির সমতুল্য।
আমরা সম্পূর্ণ-অবহিত ফ্রেমে পূর্বপ্রশিক্ষিত মডেলের মধ্যে শুধুমাত্র প্রসঙ্গ এবং শুধুমাত্র চরিত্র-ফ্রেমগুলিকে খাওয়ানোর মাধ্যমে আবেগ সনাক্তকরণের কাজগুলিতে প্রসঙ্গ এবং চরিত্রের তথ্যের গুরুত্ব তদন্ত করি। ন্যায্য তুলনা পেতে এবং ফ্রেম পিক্সেল বন্টন পার্থক্যের প্রভাব বাদ দেওয়ার জন্য, আমরা কেবলমাত্র প্রসঙ্গ এবং অক্ষর-শুধু ফ্রেমে পূর্ব-প্রশিক্ষিত মডেলটিকেও সূক্ষ্ম-টিউন করি। সংশ্লিষ্ট ফলাফলগুলি সারণি 3 এও দেখানো হয়েছে। সম্পূর্ণ তথ্য ছাড়া, মডেলের পারফরম্যান্স শুধুমাত্র প্রসঙ্গ এবং চরিত্র-শুধু উভয় অবস্থার জন্যই কমে যায়।
VEATIC ডেটাসেটের কার্যকারিতা দেখানোর জন্য, আমরা VEATIC-এ আমাদের পূর্ব-প্রশিক্ষিত মডেল ব্যবহার করেছি, এটিকে অন্যান্য ডেটাসেটে ফাইনটিউন করেছি এবং এর কার্যকারিতা পরীক্ষা করেছি। আমাদের মডেলের সরলতা এবং অন্যান্য ডেটাসেট কাগজপত্রে প্রস্তাবিত মডেলগুলির সাথে আমাদের মডেলের মিলের কারণে আমরা শুধুমাত্র ইমোটিক [৩২] এবং CAER-S [৩৩] পরীক্ষা করেছি। ফলাফলগুলি সারণি 4 এ দেখানো হয়েছে। আমাদের পূর্বপ্রশিক্ষিত মডেলটি ইমোটিক [৩২] এবং CAERS [৩৩]-এর প্রস্তাবিত পদ্ধতির সমতুল্য সঞ্চালন করে। সুতরাং, এটি আমাদের প্রস্তাবিত VEATIC ডেটাসেটের কার্যকারিতা দেখায়।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।