এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) ঝিহাং রেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: peter.zhren@berkeley.edu);
(2) জেফারসন ওর্তেগা, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: jefferson_ortega@berkeley.edu);
(3) ইফান ওয়াং, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: wyf020803@berkeley.edu);
(4) ঝিমিন চেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: zhimin@berkeley.edu);
(5) Yunhui Guo, ডালাসে টেক্সাস বিশ্ববিদ্যালয় (ইমেল: yunhui.guo@utdallas.edu);
(6) স্টেলা এক্স ইউ, ইউনিভার্সিটি অফ ক্যালিফোর্নিয়া, বার্কলে এবং ইউনিভার্সিটি অফ মিশিগান, অ্যান আর্বার (ইমেল: stellayu@umich.edu);
(7) ডেভিড হুইটনি, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: dwhitney@berkeley.edu)।
এই বিভাগে, আমরা প্রসঙ্গ ডেটাসেটে ভিডিও-ভিত্তিক আবেগ এবং প্রভাব ট্র্যাকিং চালু করি ( VEATIC )। প্রথমে, আমরা বর্ণনা করি কিভাবে আমরা সমস্ত ভিডিও ক্লিপ পেয়েছি। এর পরে, আমরা ডেটা টীকা পদ্ধতি এবং প্রাক-প্রসেসিং প্রক্রিয়া চিত্রিত করি। অবশেষে, আমরা গুরুত্বপূর্ণ ডেটাসেট পরিসংখ্যান প্রতিবেদন করি এবং ডেটা বিশ্লেষণের ফলাফলগুলি কল্পনা করি।
ডেটাসেটে ব্যবহৃত সমস্ত ভিডিও ক্লিপগুলি একটি অনলাইন ভিডিও-শেয়ারিং ওয়েবসাইট (ইউটিউব) থেকে অর্জিত হয়েছিল এবং ভিডিও ক্লিপগুলি এই ভিত্তিতে নির্বাচন করা হয়েছিল যে ক্লিপগুলিতে থাকা চরিত্রগুলির আবেগ/প্রভাব সময়ের সাথে পরিবর্তিত হওয়া উচিত। মোট, VEATIC ডেটাসেটে রয়েছে 124টি ভিডিও ক্লিপ, হলিউডের 104টি ক্লিপ, হোম ভিডিও থেকে 15টি ক্লিপ এবং ডকুমেন্টারি বা রিয়েলিটি টিভি শো থেকে 5টি ক্লিপ। VEATIC ডেটাসেটের নমুনা ফ্রেমগুলি (চিত্র 2) এ দেখানো হয়েছে। এই ভিডিওগুলিতে শূন্য থেকে একাধিক ইন্টারঅ্যাক্টিং অক্ষর রয়েছে৷ ভিডিওগুলি থেকে সমস্ত শব্দ মুছে ফেলা হয়েছিল যাতে লক্ষ্য চরিত্রের আবেগকে ট্র্যাক করার সময় পর্যবেক্ষকদের শুধুমাত্র ভিজ্যুয়াল তথ্যে অ্যাক্সেস ছিল।
মোট, আমাদের 192 জন পর্যবেক্ষক ছিল যারা ডেটাসেটে ভিডিওগুলির টীকাতে অংশগ্রহণ করেছিল৷ সমস্ত অংশগ্রহণকারীরা UC বার্কলে ইনস্টিটিউশনাল রিভিউ বোর্ডের নির্দেশিকা এবং প্রবিধান অনুসারে স্বাক্ষরিত সম্মতি প্রদান করেছিল এবং সমস্ত পরীক্ষামূলক পদ্ধতি অনুমোদিত হয়েছিল।
অংশগ্রহণকারীরা ডেটাসেটে মোট 124টি ভিডিও দেখেছেন এবং রেট দিয়েছেন। পর্যবেক্ষকদের ক্লান্ত হওয়া থেকে বিরত রাখতে, আমরা টীকা পদ্ধতিটিকে 1-ঘন্টা এবং 30-মিনিটের টীকা সেশনে বিভক্ত করেছি। অংশগ্রহণকারীরা কোনো ভিডিও টীকা করতে সক্ষম হওয়ার আগে, তাদের ব্র্যাডলি এবং ল্যাং (1999) দ্বারা প্রদত্ত রেটিং অনুসারে গ্রিডের বিভিন্ন স্থানে লেবেলযুক্ত আবেগের উদাহরণ সহ ভ্যালেন্স-উত্তেজনা প্রভাবিত রেটিং গ্রিডের একটি মুদ্রিত সংস্করণ দেখানো হয়েছিল। টীকাকারদের নির্দেশ দেওয়া হয়েছিল মাত্রা এবং নমুনা শব্দ অবস্থানের সাথে নিজেদের পরিচিত করতে যা তারা পরে টীকা প্রক্রিয়ায় ব্যবহার করবে। অংশগ্রহণকারীরা প্রভাবিত রেটিং গ্রিডের সাথে নিজেদের পরিচিত করার পরে, তারা তারপরে একটি দুই মিনিটের অনুশীলন টীকা সম্পূর্ণ করেছে যেখানে তারা একটি ভিডিওতে একটি লক্ষ্য চরিত্রের ভ্যালেন্স এবং উত্তেজনা ক্রমাগত ট্র্যাক করেছে (চিত্র 3b)। 2D ভ্যালেন্স-উত্তেজনা গ্রিডের মধ্যে রিয়েলটাইমে তাদের মাউস পয়েন্টারটিকে ক্রমাগত সরানোর মাধ্যমে ভিডিওতে লক্ষ্য চরিত্রের ভ্যালেন্স এবং উত্তেজনা ট্র্যাক করার জন্য টীকাকারদের নির্দেশ দেওয়া হয়েছিল। গ্রিডটি [−1, 1] এর পরিসরে তাদের ভ্যালেন্স এবং উত্তেজনা রেটিং ম্যাপ করবে। সম্ভাব্য মোটর পক্ষপাতগুলি নিয়ন্ত্রণ করতে, আমরা অংশগ্রহণকারীদের মধ্যে ভ্যালেন্স-উত্তেজনা মাত্রাগুলিকে ভারসাম্যহীন করেছি যেখানে অর্ধেক টীকারের x-অক্ষে ভ্যালেন্স এবং y-অক্ষে উত্তেজনা ছিল এবং বাকী অর্ধেক মাত্রা উল্টে গেছে যাতে উত্তেজনা x-এর উপর থাকে। -অক্ষ এবং ভ্যালেন্স y-অক্ষে ছিল। পর্যবেক্ষকরা অনুশীলনের টীকা সেশন শেষ করার পরে, তারা ডেটাসেটে ভিডিওগুলি টীকা করা শুরু করে।
অংশগ্রহণকারীরা টীকা শুরু করার আগে, তাদের লক্ষ্য অক্ষর বৃত্তাকার (চিত্র 3a) সহ একটি চিত্র দেখানো হয়েছিল যা অংশগ্রহণকারীদের জানায় যে ভিডিওটি শুরু হলে তারা কোন চরিত্রটি ট্র্যাক করবে৷ তারপর, তারা রিয়েল-টাইমে ভিডিও ক্লিপগুলি টীকা করেছে৷ প্রতিটি ভিডিও টীকাটির শেষে, অংশগ্রহণকারীরা ভিডিও ক্লিপের সাথে 1-5টি পৃথক লাইকার্ট স্কেল ব্যবহার করে তাদের পরিচিতি রিপোর্ট করেছে যা "অপরিচিত", "সামান্য পরিচিত", "কিছুটা পরিচিত", "মাঝারিভাবে পরিচিত", এবং "অত্যন্ত পরিচিত" থেকে শুরু করে পরিচিত"। ক্লিপটি দেখার সময় অংশগ্রহণকারীদের তাদের উপভোগের স্তর সম্পর্কেও জিজ্ঞাসা করা হয়েছিল যা 1-9 বিচ্ছিন্ন লিকার্ট স্কেল ব্যবহার করে রেট করা হয়েছিল যা 1 (আনন্দযোগ্য নয়) থেকে 9 (অত্যন্ত উপভোগযোগ্য)। অতিরিক্তভাবে, অংশগ্রহণকারীদের বিরক্ত না করার জন্য, সমস্ত 124টি ভিডিও ক্লিপ দুটি সেশনে বিভক্ত করা হয়েছিল। অংশগ্রহণকারীরা পৃথকভাবে দুটি সেশনে ভিডিও ক্লিপগুলিকে মূল্যায়ন করেছে।
প্রতিটি ট্রায়ালের সময়, আমরা মূল্যায়ন করেছি যে অংশগ্রহণকারীরা কোন একক অবস্থানে মাউস পয়েন্টার রাখার সময়কাল ট্র্যাক করে মনোযোগ দিচ্ছে না কিনা। যদি সময়কাল 10 সেকেন্ডের বেশি হয়, তাহলে প্রভাবিত রেটিং গ্রিড ওঠানামা করতে শুরু করবে যা অংশগ্রহণকারীদের লক্ষ্য চরিত্রের আবেগ ট্র্যাক করা চালিয়ে যেতে স্মরণ করিয়ে দেয়। আমাদের ডেটাসেটে কোনো শোরগোল টীকাকার ছিল কিনা তা মূল্যায়ন করার জন্য, আমরা প্রতিটি টীকাকারের মধ্যে পিয়ারসন পারস্পরিক সম্পর্ক গণনা করে প্রতিটি টীকাকারের চুক্তিকে গণনা করেছি এবং ত্যাগ-এক-আউট সম্মতির (বর্তমান টীকা ব্যতীত প্রতিক্রিয়াগুলির সমষ্টি) জন্য প্রতিটি ভিডিও। আমরা দেখেছি যে শুধুমাত্র একজন টীকাকারের সাথে সমস্ত ভিডিও জুড়ে .2-এর চেয়ে কম পারস্পরিক সম্পর্ক ছিল এক-আউট-আউট সম্মতি সহ। যেহেতু শুধুমাত্র একটি টীকা আমাদের থ্রেশহোল্ডের নিচে নেমে এসেছে, তাই ভিডিওতে কোনো গুরুত্বপূর্ণ বিকল্প টীকা না সরানোর জন্য আমরা ডেটাসেটে টীকাটিকে রাখার সিদ্ধান্ত নিয়েছি।
চিত্র 4 2টি ভিন্ন ভিডিও ক্লিপগুলিতে নমুনা গড় রেটিং এবং মূল ফ্রেমগুলি দেখায়৷ স্পষ্টতই, এখানে ভ্যালেন্স এবং উত্তেজনা উভয়েরই বিস্তৃত রেটিং রয়েছে। অধিকন্তু, এটি দেখায় যে প্রসঙ্গ তথ্য, হয় স্থানিক এবং/অথবা অস্থায়ী, আবেগ সনাক্তকরণের কাজগুলিতে একটি গুরুত্বপূর্ণ ভূমিকা পালন করে। ভ্যালেন্স উদাহরণে (উপরের চিত্র), লড়াইয়ের অস্থায়ী এবং/অথবা স্থানিক প্রসঙ্গ তথ্য ছাড়া, শেষ ফ্রেমের (হলুদ) চরিত্রটি (মহিলা) আশ্চর্যজনকভাবে খুশি বা বিস্মিত কিনা তা চিনতে অসুবিধা হবে। উত্তেজনামূলক উদাহরণে (নিম্ন চিত্র), এমনকি নির্বাচিত চরিত্রের মুখ ছাড়া, পর্যবেক্ষকরা তীব্র প্রেক্ষাপটের মাধ্যমে সহজেই এবং ধারাবাহিকভাবে চরিত্রের উত্তেজনা অনুমান করতে পারেন।
চিত্র 5 আমাদের ডেটাসেটে একটি একক ভিডিওর জন্য সমস্ত অংশগ্রহণকারীদের নমুনা ভ্যালেন্স এবং উত্তেজনা রেটিং চিত্রিত করে। পৃথক বিষয়ের রেটিংগুলি (ধূসর রেখাগুলি) ভ্যালেন্স এবং উত্তেজনা রেটিং উভয়ের জন্য অংশগ্রহণকারীদের (সবুজ লাইন) সর্বসম্মত রেটিং অনুসরণ করে। সবুজ ঐক্যমত্য লাইনের চারপাশে ওভারল্যাপ করা ঘন ধূসর রেখাটি পর্যবেক্ষকদের বিস্তৃত পরিসরের মধ্যে চুক্তি নির্দেশ করে। উপরন্তু, আমরা প্রতিটি ভিডিওর জন্য পর্যবেক্ষক জুড়ে মানক বিচ্যুতি গণনা করে ভিডিও জুড়ে পর্যবেক্ষকদের প্রতিক্রিয়াগুলি কীভাবে পরিবর্তিত হয়েছে তা তদন্ত করেছি। আমরা দেখতে পেয়েছি যে ভ্যালেন্স এবং উত্তেজনা উভয় মাত্রার জন্য পর্যবেক্ষকদের মধ্যে পার্থক্য ছোট ছিল যেখানে ভ্যালেন্সের গড় মান বিচ্যুতি µ = 0.248 এবং একটি মধ্যক 0.222 এবং উত্তেজনার গড় মান বিচ্যুতি µ = 0.248 এবং 0.244 এর মধ্যম রয়েছে, যা ইমোটিক [৩২] থেকে ভ্যালেন্স এবং উত্তেজনা রেটিং বৈচিত্রের সাথে তুলনীয়।
আমাদের সমস্ত ভিডিও জুড়ে ভ্যালেন্স এবং উত্তেজনা রেটিংগুলির বিতরণ চিত্র 6-এ দেখানো হয়েছে৷ আমরা দেখতে পেয়েছি যে পৃথক অংশগ্রহণকারীর রেটিংগুলি ভ্যালেন্স এবং উত্তেজনা উভয় মাত্রার মধ্যে সম্পূর্ণরূপে বিতরণ করা হয়েছিল যা VEATIC ডেটাসেটের বৈচিত্র্যকে হাইলাইট করে৷ এছাড়াও আমরা অংশগ্রহণকারীদের মধ্যে প্রতিটি ভিডিওর জন্য পরিচিতি এবং উপভোগের রেটিং সংগ্রহ করেছি (চিত্র 7 এ দেখানো হয়েছে)। আমরা দেখতে পেয়েছি যে পর্যবেক্ষকরা ডেটাসেটে ব্যবহৃত ভিডিওগুলির সাথে অপরিচিত ছিলেন কারণ ভিডিও আইডি 0-97 এর জন্য গড় পরিচিতি রেটিং ছিল 1.61৷ উপরন্তু, ভিডিও আইডি 0-97-এর জন্য ভিডিও দেখার সময় পর্যবেক্ষকরা তাদের উপভোগকে রেট করেছেন গড়ে 4.98 হিসাবে যা ইঙ্গিত করে যে পর্যবেক্ষকরা ভিডিও ক্লিপগুলি দেখতে এবং টীকা করা মাঝারিভাবে উপভোগ করেছেন। ভিডিও আইডি 98-123-এর জন্য পরিচিতি এবং উপভোগের রেটিং সংগ্রহ করা হয়নি কারণ এই ভিডিওগুলির টীকাগুলি ডেটা সংগ্রহের সময় আগের সময়ে সংগ্রহ করা হয়েছিল যা এই রেটিংগুলিকে অন্তর্ভুক্ত করেনি৷
নীচের সারণি 2 VEATIC ডেটাসেটের মৌলিক পরিসংখ্যানগুলিকে সংক্ষিপ্ত করে৷ সংক্ষেপে, VEATIC-এর একটি দীর্ঘ মোট ভিডিও ক্লিপ সময়কাল এবং বিভিন্ন ধরণের ভিডিও উত্স রয়েছে যা বিস্তৃত প্রেক্ষাপট এবং মানসিক অবস্থাকে কভার করে। অধিকন্তু, পূর্ববর্তী ডেটাসেটের তুলনায়, আমরা রেটিংগুলি টীকা করার জন্য অনেক বেশি অংশগ্রহণকারীদের নিয়োগ করেছি।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।