[ad_1]
در دو سال گذشته ، Facebook AI Research (FAIR) با 13 دانشگاه در سراسر جهان همکاری کرده است تا بزرگترین مجموعه داده ویدیویی اول شخص را جمع آوری کند-به طور خاص برای آموزش مدل های تشخیص تصویر یادگیری عمیق. هوش مصنوعی آموزش داده شده بر روی مجموعه داده ، روبات هایی را که با مردم تعامل دارند یا تصاویر را از عینک های هوشمند تفسیر می کنند ، بهتر کنترل می کند. کریستن گرومن از FAIR ، سرپرست این پروژه می گوید: “ماشین ها تنها در صورتی می توانند به ما در زندگی روزمره کمک کنند که جهان را با چشم ما درک کنند.”
چنین فناوری می تواند از کسانی که به کمک خانگی نیاز دارند پشتیبانی کند یا افراد را در کارهایی که یاد می گیرند انجام دهند راهنمایی کند. مایکل ریو ، محقق بینایی رایانه ای در Google Brain و دانشگاه استونی بروک در نیویورک که با Ego4D درگیر نیست می گوید: “فیلم موجود در این مجموعه داده به نحوه مشاهده مردم جهان بسیار نزدیکتر است.”
اما سوء استفاده های احتمالی روشن و نگران کننده است. این تحقیق توسط فیس بوک تأمین می شود ، غول رسانه های اجتماعی که اخیراً در سنای آمریکا متهم به سوددهی بر رفاه مردم شده است – همانطور که توسط تحقیقات MIT Technology Review تأیید شده است.
مدل کسب و کار فیس بوک و سایر شرکت های Big Tech این است که تا آنجا که ممکن است داده ها را از رفتار آنلاین افراد استخراج کرده و به تبلیغ کنندگان بفروشند. هوش مصنوعی ارائه شده در این پروژه می تواند این دسترسی را به رفتارهای روزانه افراد بصورت آفلاین گسترش دهد و نشان دهد که در منزل شما چه وسایلی وجود دارد ، چه فعالیتهایی را دوست دارید ، با چه کسانی وقت می گذراندید و حتی در کجا نگاه شما متوقف شده است – سطح بی سابقه ای از اطلاعات شخصی.
گرومن می گوید: “هنگامی که آن را از دنیای تحقیقات اکتشافی به چیزی که محصول است می آورید ، باید کارهای حریم خصوصی انجام شود.” “این کار حتی ممکن است از این پروژه الهام گرفته شود.”
بزرگترین مجموعه داده ویدیویی اول شخص تا به امروز شامل 100 ساعت فیلمبرداری از افراد در آشپزخانه بود. مجموعه داده Ego4D شامل 3025 ساعت فیلمبرداری است که توسط 855 نفر در 73 مکان مختلف در نه کشور (ایالات متحده ، انگلستان ، هند ، ژاپن ، ایتالیا ، سنگاپور ، عربستان سعودی ، کلمبیا و رواندا) ضبط شده است.
شرکت کنندگان در هر رده سنی و سابقه ای بودند. برخی در حرفه های بصری جالب خود مانند نانوایان ، مکانیک ، نجار و معماران منظر به کار گرفته شدند.
مجموعه داده های قبلی معمولاً شامل کلیپ های ویدئویی نیمه اسکریپتی بود که فقط چند ثانیه طول کشید. در مورد Ego4D ، شرکت کنندگان تا 10 ساعت روی سر خود دوربین می گذاشتند و فیلم اول شخص از فعالیتهای روزانه خود را ضبط می کردند ، از جمله قدم زدن در خیابان ، خواندن ، شستن لباس ، خرید ، بازی با حیوانات ، بازی روی تخته ، و تعامل با افراد دیگر برخی از فیلم ها همچنین شامل صدا ، داده های مربوط به بینایی شرکت کنندگان و دیدگاه های متعدد در یک صحنه است. ریو می گوید این اولین مجموعه داده در نوع خود است.
[ad_2]