এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।   লেখক:  (1) ঝিহাং রেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: peter.zhren@berkeley.edu);  (2) জেফারসন ওর্তেগা, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: jefferson_ortega@berkeley.edu);  (3) ইফান ওয়াং, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: wyf020803@berkeley.edu);  (4) ঝিমিন চেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: zhimin@berkeley.edu);  (5) ইউনহুই গুও, ডালাসে টেক্সাস বিশ্ববিদ্যালয় (ইমেল: yunhui.guo@utdallas.edu);  (6) স্টেলা এক্স ইউ, ইউনিভার্সিটি অফ ক্যালিফোর্নিয়া, বার্কলে এবং ইউনিভার্সিটি অফ মিশিগান, অ্যান আর্বার (ইমেল: stellayu@umich.edu);  (7) ডেভিড হুইটনি, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: dwhitney@berkeley.edu)।  লিঙ্কের টেবিল   বিমূর্ত এবং ভূমিকা   সম্পর্কিত Wok   VEATIC ডেটাসেট   পরীক্ষা-নিরীক্ষা   আলোচনা   উপসংহার   উদ্দীপক সম্পর্কে আরও   টীকা বিবরণ   আউটলিয়ার প্রসেসিং   ভিডিও জুড়ে বিষয় চুক্তি   পরিচিতি এবং উপভোগ রেটিং এবং রেফারেন্স  4. পরীক্ষা  এই গবেষণায়, আমরা প্রসঙ্গ টাস্কে একটি নতুন আবেগ স্বীকৃতির প্রস্তাব দিই, যেমন প্রতিটি ভিডিও ফ্রেমে প্রসঙ্গ এবং চরিত্রের তথ্য উভয়ের মাধ্যমে নির্বাচিত চরিত্রের ভ্যালেন্স এবং উত্তেজনা অনুমান করা। এখানে, আমরা প্রসঙ্গ টাস্কে নতুন আবেগ স্বীকৃতির মানদণ্ডের জন্য একটি সাধারণ বেসলাইন মডেল প্রস্তাব করি। মডেলটির পাইপলাইন চিত্র 8-এ দেখানো হয়েছে। আমরা দুটি সাধারণ সাবমডিউল গ্রহণ করেছি: বৈশিষ্ট্য নিষ্কাশনের জন্য একটি কনভোল্যুশনাল নিউরাল নেটওয়ার্ক (CNN) মডিউল এবং অস্থায়ী তথ্য প্রক্রিয়াকরণের জন্য একটি ভিজ্যুয়াল ট্রান্সফরমার মডিউল। CNN মডিউল কাঠামো Resnet50 [21] থেকে গৃহীত হয়। CAER [৩৩] এবং ইমোটিক [৩২] এর বিপরীতে, যেখানে মুখের/চরিত্র এবং প্রসঙ্গ বৈশিষ্ট্যগুলি আলাদাভাবে বের করা হয় এবং পরে একত্রিত করা হয়, আমরা সরাসরি সম্পূর্ণরূপে অবহিত ফ্রেমটিকে এনকোড করি। একটি একক ভবিষ্যদ্বাণীর জন্য, পরপর N ভিডিও ফ্রেমগুলি স্বাধীনভাবে এনকোড করা হয়৷ তারপরে, পরপর ফ্রেমের বৈশিষ্ট্য ভেক্টরগুলিকে প্রথম অবস্থানে এমবেড করা হয় এবং ট্রান্সফরমার এনকোডারে খাওয়ানো হয় যাতে মনোযোগ মডিউলগুলির L সেট থাকে। অবশেষে, উত্তেজনা এবং ভ্যালেন্সের ভবিষ্যদ্বাণী একটি মাল্টিলেয়ার পারসেপ্ট্রন (এমএলপি) হেড দ্বারা সম্পন্ন হয়।   4.1। ক্ষতি ফাংশন এবং প্রশিক্ষণ সেটআপ  আমাদের বেসলাইন মডেলের ক্ষতি ফাংশন দুটি পৃথক ক্ষতির একটি ওজনযুক্ত সমন্বয়। MSE ক্ষতি রেটিং এবং মডেল ভবিষ্যদ্বাণীর গ্রাউন্ড ট্রুথের স্থানীয় প্রান্তিককরণকে নিয়মিত করে। বৃহত্তর স্কেলে রেটিং এবং ভবিষ্যদ্বাণীগুলির সারিবদ্ধকরণের গ্যারান্টি দেওয়ার জন্য, যেমন আবেগগত রেটিংগুলির সাময়িক পরিসংখ্যান শেখার জন্য, আমরা নিয়মিতকরণ হিসাবে কনকর্ডেন্স কোরিলেশন কোফিসিয়েন্ট (CCC) ব্যবহার করি। এই সহগ নিম্নরূপ সংজ্ঞায়িত করা হয়,   4.2। মূল্যায়ন মেট্রিক্স   SAGR পরিমাপ করে যে দুটি ভেক্টর X এবং Y-এর পৃথক মানের চিহ্ন কতটা মিলে যায়। এটি [0, 1]-এ মানগুলি গ্রহণ করে, যেখানে 1 সম্পূর্ণ চুক্তির প্রতিনিধিত্ব করে এবং 0 একটি সম্পূর্ণ দ্বন্দ্ব উপস্থাপন করে। SAGR মেট্রিক অন্যদের তুলনায় অতিরিক্ত কর্মক্ষমতা তথ্য ক্যাপচার করতে পারে। উদাহরণস্বরূপ, 0.2 এর একটি ভ্যালেন্স গ্রাউন্ড ট্রুথ দেওয়া হলে, 0.7 এবং -0.3 এর ভবিষ্যদ্বাণী একই RMSE মান নিয়ে যাবে। কিন্তু স্পষ্টতই, 0.7 আরও উপযুক্ত কারণ এটি একটি ইতিবাচক ভ্যালেন্স।   4.3। বেঞ্চমার্ক ফলাফল  আমরা পূর্বোক্ত 4টি মেট্রিক্স, CCC, PCC, RMSE এবং SAGR ব্যবহার করে প্রসঙ্গ টাস্কে নতুন আবেগ স্বীকৃতির মানদণ্ড তৈরি করি। ফলাফলগুলি সারণী 3-এ দেখানো হয়েছে। অন্যান্য ডেটাসেটের তুলনায়, আমাদের প্রস্তাবিত সহজ পদ্ধতিটি তাদের ডেটাসেটের অত্যাধুনিক পদ্ধতির সমতুল্য।  আমরা সম্পূর্ণ-অবহিত ফ্রেমে পূর্বপ্রশিক্ষিত মডেলের মধ্যে শুধুমাত্র প্রসঙ্গ এবং শুধুমাত্র চরিত্র-ফ্রেমগুলিকে খাওয়ানোর মাধ্যমে আবেগ সনাক্তকরণের কাজগুলিতে প্রসঙ্গ এবং চরিত্রের তথ্যের গুরুত্ব তদন্ত করি। ন্যায্য তুলনা পেতে এবং ফ্রেম পিক্সেল বন্টন পার্থক্যের প্রভাব বাদ দেওয়ার জন্য, আমরা কেবলমাত্র প্রসঙ্গ এবং অক্ষর-শুধু ফ্রেমে পূর্ব-প্রশিক্ষিত মডেলটিকেও সূক্ষ্ম-টিউন করি। সংশ্লিষ্ট ফলাফলগুলি সারণি 3 এও দেখানো হয়েছে। সম্পূর্ণ তথ্য ছাড়া, মডেলের পারফরম্যান্স শুধুমাত্র প্রসঙ্গ এবং চরিত্র-শুধু উভয় অবস্থার জন্যই কমে যায়।  VEATIC ডেটাসেটের কার্যকারিতা দেখানোর জন্য, আমরা VEATIC-এ আমাদের পূর্ব-প্রশিক্ষিত মডেল ব্যবহার করেছি, এটিকে অন্যান্য ডেটাসেটে ফাইনটিউন করেছি এবং এর কার্যকারিতা পরীক্ষা করেছি। আমাদের মডেলের সরলতা এবং অন্যান্য ডেটাসেট কাগজপত্রে প্রস্তাবিত মডেলগুলির সাথে আমাদের মডেলের মিলের কারণে আমরা শুধুমাত্র ইমোটিক [৩২] এবং CAER-S [৩৩] পরীক্ষা করেছি। ফলাফলগুলি সারণি 4 এ দেখানো হয়েছে। আমাদের পূর্বপ্রশিক্ষিত মডেলটি ইমোটিক [৩২] এবং CAERS [৩৩]-এর প্রস্তাবিত পদ্ধতির সমতুল্য সঞ্চালন করে। সুতরাং, এটি আমাদের প্রস্তাবিত VEATIC ডেটাসেটের কার্যকারিতা দেখায়।  এই কাগজটি CC 4.0 লাইসেন্সের অধীনে   । arxiv-এ উপলব্ধ

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

গল্পের মূল ভাষায় এই অডিও তৈরি!

VEATIC: ভিডিও-ভিত্তিক আবেগ এবং প্রসঙ্গ ডেটাসেটে ট্র্যাকিংকে প্রভাবিত করে: পরীক্ষাগুলি

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

ব্যবহারকারী-কেন্দ্রিক ক্রিপ্টো পণ্য তৈরি করা: গ্রাহক প্রতিক্রিয়ার গুরুত্ব

কিভাবে 10X দ্বারা আপনার কর্মপ্রবাহ উন্নত করবেন: 17টি প্রয়োজনীয় অ্যাপ

ফোরাম থেকে ফিড পর্যন্ত: কীভাবে সোশ্যাল মিডিয়া অ্যালগরিদম ডিজিটাল ইন্টারঅ্যাকশনকে আকার দেয়

এআই/এমএল ডাটালেকের জন্য রেফারেন্স আর্কিটেকচার তৈরির জন্য একজন স্থপতির গাইড

ব্যবহারকারী-কেন্দ্রিক ক্রিপ্টো পণ্য তৈরি করা: গ্রাহক প্রতিক্রিয়ার গুরুত্ব

কিভাবে 10X দ্বারা আপনার কর্মপ্রবাহ উন্নত করবেন: 17টি প্রয়োজনীয় অ্যাপ

ফোরাম থেকে ফিড পর্যন্ত: কীভাবে সোশ্যাল মিডিয়া অ্যালগরিদম ডিজিটাল ইন্টারঅ্যাকশনকে আকার দেয়

এআই/এমএল ডাটালেকের জন্য রেফারেন্স আর্কিটেকচার তৈরির জন্য একজন স্থপতির গাইড

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps