paint-brush
VEATIC: ভিডিও-ভিত্তিক আবেগ এবং প্রসঙ্গ ডেটাসেটে ট্র্যাকিংকে প্রভাবিত করে: পরীক্ষাগুলিদ্বারা@kinetograph
172 পড়া

VEATIC: ভিডিও-ভিত্তিক আবেগ এবং প্রসঙ্গ ডেটাসেটে ট্র্যাকিংকে প্রভাবিত করে: পরীক্ষাগুলি

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা মানব প্রভাবিত স্বীকৃতির জন্য VEATIC ডেটাসেট প্রবর্তন করেছেন, বিদ্যমান ডেটাসেটের সীমাবদ্ধতাগুলিকে মোকাবেলা করে, প্রসঙ্গ-ভিত্তিক অনুমান সক্ষম করে৷
featured image - VEATIC: ভিডিও-ভিত্তিক আবেগ এবং প্রসঙ্গ ডেটাসেটে ট্র্যাকিংকে প্রভাবিত করে: পরীক্ষাগুলি
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।

লেখক:

(1) ঝিহাং রেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: peter.zhren@berkeley.edu);

(2) জেফারসন ওর্তেগা, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: jefferson_ortega@berkeley.edu);

(3) ইফান ওয়াং, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: wyf020803@berkeley.edu);

(4) ঝিমিন চেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: zhimin@berkeley.edu);

(5) ইউনহুই গুও, ডালাসে টেক্সাস বিশ্ববিদ্যালয় (ইমেল: yunhui.guo@utdallas.edu);

(6) স্টেলা এক্স ইউ, ইউনিভার্সিটি অফ ক্যালিফোর্নিয়া, বার্কলে এবং ইউনিভার্সিটি অফ মিশিগান, অ্যান আর্বার (ইমেল: stellayu@umich.edu);

(7) ডেভিড হুইটনি, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: dwhitney@berkeley.edu)।

লিঙ্কের টেবিল

4. পরীক্ষা

এই গবেষণায়, আমরা প্রসঙ্গ টাস্কে একটি নতুন আবেগ স্বীকৃতির প্রস্তাব দিই, যেমন প্রতিটি ভিডিও ফ্রেমে প্রসঙ্গ এবং চরিত্রের তথ্য উভয়ের মাধ্যমে নির্বাচিত চরিত্রের ভ্যালেন্স এবং উত্তেজনা অনুমান করা। এখানে, আমরা প্রসঙ্গ টাস্কে নতুন আবেগ স্বীকৃতির মানদণ্ডের জন্য একটি সাধারণ বেসলাইন মডেল প্রস্তাব করি। মডেলটির পাইপলাইন চিত্র 8-এ দেখানো হয়েছে। আমরা দুটি সাধারণ সাবমডিউল গ্রহণ করেছি: বৈশিষ্ট্য নিষ্কাশনের জন্য একটি কনভোল্যুশনাল নিউরাল নেটওয়ার্ক (CNN) মডিউল এবং অস্থায়ী তথ্য প্রক্রিয়াকরণের জন্য একটি ভিজ্যুয়াল ট্রান্সফরমার মডিউল। CNN মডিউল কাঠামো Resnet50 [21] থেকে গৃহীত হয়। CAER [৩৩] এবং ইমোটিক [৩২] এর বিপরীতে, যেখানে মুখের/চরিত্র এবং প্রসঙ্গ বৈশিষ্ট্যগুলি আলাদাভাবে বের করা হয় এবং পরে একত্রিত করা হয়, আমরা সরাসরি সম্পূর্ণরূপে অবহিত ফ্রেমটিকে এনকোড করি। একটি একক ভবিষ্যদ্বাণীর জন্য, পরপর N ভিডিও ফ্রেমগুলি স্বাধীনভাবে এনকোড করা হয়৷ তারপরে, পরপর ফ্রেমের বৈশিষ্ট্য ভেক্টরগুলিকে প্রথম অবস্থানে এমবেড করা হয় এবং ট্রান্সফরমার এনকোডারে খাওয়ানো হয় যাতে মনোযোগ মডিউলগুলির L সেট থাকে। অবশেষে, উত্তেজনা এবং ভ্যালেন্সের ভবিষ্যদ্বাণী একটি মাল্টিলেয়ার পারসেপ্ট্রন (এমএলপি) হেড দ্বারা সম্পন্ন হয়।


চিত্র 8. আবেগের জন্য বেঞ্চমার্ক মডেলের আর্কিটেকচার এবং প্রসঙ্গ টাস্কে ট্র্যাকিংকে প্রভাবিত করে। মডেলটিতে একটি CNN বৈশিষ্ট্য নিষ্কাশন মডিউল এবং ধারাবাহিক ফ্রেমের সাময়িক তথ্য একত্রিত করার জন্য একটি ভিজ্যুয়াল ট্রান্সফরমার রয়েছে।

4.1। ক্ষতি ফাংশন এবং প্রশিক্ষণ সেটআপ

আমাদের বেসলাইন মডেলের ক্ষতি ফাংশন দুটি পৃথক ক্ষতির একটি ওজনযুক্ত সমন্বয়। MSE ক্ষতি রেটিং এবং মডেল ভবিষ্যদ্বাণীর গ্রাউন্ড ট্রুথের স্থানীয় প্রান্তিককরণকে নিয়মিত করে। বৃহত্তর স্কেলে রেটিং এবং ভবিষ্যদ্বাণীগুলির সারিবদ্ধকরণের গ্যারান্টি দেওয়ার জন্য, যেমন আবেগগত রেটিংগুলির সাময়িক পরিসংখ্যান শেখার জন্য, আমরা নিয়মিতকরণ হিসাবে কনকর্ডেন্স কোরিলেশন কোফিসিয়েন্ট (CCC) ব্যবহার করি। এই সহগ নিম্নরূপ সংজ্ঞায়িত করা হয়,


4.2। মূল্যায়ন মেট্রিক্স


SAGR পরিমাপ করে যে দুটি ভেক্টর X এবং Y-এর পৃথক মানের চিহ্ন কতটা মিলে যায়। এটি [0, 1]-এ মানগুলি গ্রহণ করে, যেখানে 1 সম্পূর্ণ চুক্তির প্রতিনিধিত্ব করে এবং 0 একটি সম্পূর্ণ দ্বন্দ্ব উপস্থাপন করে। SAGR মেট্রিক অন্যদের তুলনায় অতিরিক্ত কর্মক্ষমতা তথ্য ক্যাপচার করতে পারে। উদাহরণস্বরূপ, 0.2 এর একটি ভ্যালেন্স গ্রাউন্ড ট্রুথ দেওয়া হলে, 0.7 এবং -0.3 এর ভবিষ্যদ্বাণী একই RMSE মান নিয়ে যাবে। কিন্তু স্পষ্টতই, 0.7 আরও উপযুক্ত কারণ এটি একটি ইতিবাচক ভ্যালেন্স।


সারণি 3. সম্পূর্ণ-অবহিত, শুধুমাত্র চরিত্র, এবং শুধুমাত্র প্রসঙ্গ শর্তাবলীর উপর আমাদের প্রস্তাবিত মডেলের কর্মক্ষমতা। চরিত্র এবং প্রসঙ্গ তথ্য উভয়ের মাধ্যমে অনুমান, মডেলটি সর্বোত্তম কার্য সম্পাদন করে। এটি আবেগের ক্ষেত্রে প্রসঙ্গ এবং চরিত্রের তথ্য উভয়ের গুরুত্ব দেখায় এবং ট্র্যাকিং কাজগুলিকে প্রভাবিত করে।


সারণী 4. তাদের ডেটাসেটে ইমোটিক এবং কেয়ার-এস পূর্বপ্রশিক্ষিত মডেলের সাথে আমাদের সূক্ষ্ম-সুরক্ষিত প্রস্তাবিত পদ্ধতির তুলনা। আমাদের সাধারণ মডেল প্রতিযোগিতামূলক ফলাফল অর্জন করে, যা VEATIC এর সাধারণীকরণ নির্দেশ করে।

4.3। বেঞ্চমার্ক ফলাফল

আমরা পূর্বোক্ত 4টি মেট্রিক্স, CCC, PCC, RMSE এবং SAGR ব্যবহার করে প্রসঙ্গ টাস্কে নতুন আবেগ স্বীকৃতির মানদণ্ড তৈরি করি। ফলাফলগুলি সারণী 3-এ দেখানো হয়েছে। অন্যান্য ডেটাসেটের তুলনায়, আমাদের প্রস্তাবিত সহজ পদ্ধতিটি তাদের ডেটাসেটের অত্যাধুনিক পদ্ধতির সমতুল্য।


আমরা সম্পূর্ণ-অবহিত ফ্রেমে পূর্বপ্রশিক্ষিত মডেলের মধ্যে শুধুমাত্র প্রসঙ্গ এবং শুধুমাত্র চরিত্র-ফ্রেমগুলিকে খাওয়ানোর মাধ্যমে আবেগ সনাক্তকরণের কাজগুলিতে প্রসঙ্গ এবং চরিত্রের তথ্যের গুরুত্ব তদন্ত করি। ন্যায্য তুলনা পেতে এবং ফ্রেম পিক্সেল বন্টন পার্থক্যের প্রভাব বাদ দেওয়ার জন্য, আমরা কেবলমাত্র প্রসঙ্গ এবং অক্ষর-শুধু ফ্রেমে পূর্ব-প্রশিক্ষিত মডেলটিকেও সূক্ষ্ম-টিউন করি। সংশ্লিষ্ট ফলাফলগুলি সারণি 3 এও দেখানো হয়েছে। সম্পূর্ণ তথ্য ছাড়া, মডেলের পারফরম্যান্স শুধুমাত্র প্রসঙ্গ এবং চরিত্র-শুধু উভয় অবস্থার জন্যই কমে যায়।


VEATIC ডেটাসেটের কার্যকারিতা দেখানোর জন্য, আমরা VEATIC-এ আমাদের পূর্ব-প্রশিক্ষিত মডেল ব্যবহার করেছি, এটিকে অন্যান্য ডেটাসেটে ফাইনটিউন করেছি এবং এর কার্যকারিতা পরীক্ষা করেছি। আমাদের মডেলের সরলতা এবং অন্যান্য ডেটাসেট কাগজপত্রে প্রস্তাবিত মডেলগুলির সাথে আমাদের মডেলের মিলের কারণে আমরা শুধুমাত্র ইমোটিক [৩২] এবং CAER-S [৩৩] পরীক্ষা করেছি। ফলাফলগুলি সারণি 4 এ দেখানো হয়েছে। আমাদের পূর্বপ্রশিক্ষিত মডেলটি ইমোটিক [৩২] এবং CAERS [৩৩]-এর প্রস্তাবিত পদ্ধতির সমতুল্য সঞ্চালন করে। সুতরাং, এটি আমাদের প্রস্তাবিত VEATIC ডেটাসেটের কার্যকারিতা দেখায়।



এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ