এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) ঝিহাং রেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: peter.zhren@berkeley.edu);
(2) জেফারসন ওর্তেগা, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: jefferson_ortega@berkeley.edu);
(3) ইফান ওয়াং, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: wyf020803@berkeley.edu);
(4) ঝিমিন চেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: zhimin@berkeley.edu);
(5) Yunhui Guo, ডালাসে টেক্সাস বিশ্ববিদ্যালয় (ইমেল: yunhui.guo@utdallas.edu);
(6) স্টেলা এক্স ইউ, ইউনিভার্সিটি অফ ক্যালিফোর্নিয়া, বার্কলে এবং ইউনিভার্সিটি অফ মিশিগান, অ্যান আর্বার (ইমেল: stellayu@umich.edu);
(7) ডেভিড হুইটনি, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: dwhitney@berkeley.edu)।
VEATIC ডেটাসেটে ব্যবহৃত সমস্ত ভিডিও একটি অনলাইন ভিডিও-শেয়ারিং ওয়েবসাইট (ইউটিউব) থেকে নির্বাচন করা হয়েছিল৷ VEATIC ডেটাসেটে রয়েছে 124টি ভিডিও ক্লিপ, হলিউডের 104টি ক্লিপ, হোম ভিডিও থেকে 15টি ক্লিপ এবং ডকুমেন্টারি বা রিয়েলিটি টিভি শো থেকে 5টি ক্লিপ। বিশেষত, আমরা ডকুমেন্টারি ভিডিওগুলিকে এমন কোনও ভিডিও হিসাবে শ্রেণীবদ্ধ করি যা স্পষ্ট সামাজিক মিথস্ক্রিয়া দেখায় তবে ভিডিও সম্পাদনার কিছু রূপ রয়েছে, যখন হোম ভিডিওগুলি এমন ভিডিওগুলিকে বোঝায় যা কোনও ভিডিও সম্পাদনা ছাড়াই অকপট সামাজিক মিথস্ক্রিয়া দেখায়৷ ডেটাসেটের সমস্ত ভিডিওর ফ্রেম রেট প্রতি সেকেন্ডে 25 ফ্রেম ছিল এবং রেজোলিউশনে সর্বনিম্ন 202 x 360 এবং সর্বোচ্চ 1920 x 1080।
চিত্র 2-এ ভিডিও ফ্রেমের সংক্ষিপ্ত বিবরণ ব্যতীত, আমরা চিত্র 9-এ আরও নমুনা দেখাই। অধিকন্তু, পূর্বে প্রকাশিত ডেটাসেটের বিপরীতে যেখানে বেশিরভাগ ফ্রেমে প্রধান অক্ষর রয়েছে [31, 29, 32], VEATIC-এর শুধুমাত্র নির্বাচিত অক্ষর ধারণকারী ফ্রেমই নেই কিন্তু এছাড়াও অনির্বাচিত অক্ষর এবং বিশুদ্ধ ব্যাকগ্রাউন্ড সহ প্রচুর ফ্রেম রয়েছে (চিত্র 10)। অতএব, VEATIC আমাদের দৈনন্দিন জীবনের পরিস্থিতির সাথে আরও বেশি মিল, এবং এতে প্রশিক্ষিত অ্যালগরিদমগুলি প্রতিদিনের অ্যাপ্লিকেশনের জন্য আরও আশাব্যঞ্জক হবে।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।