درک سریع‌تر ویدیوها با CoPE-VideoLM ، رسانه هوش مصنوعی سیمرغ

تلویزیون هوش مصنوعی سیمرغ | جامعه هوش مصنوعی ایران
تلویزیون هوش مصنوعی سیمرغ | جامعه هوش مصنوعی ایران

بنظر شما یک ابزار هوش مصنوعی چطوری میتونه ویدئوها را درک کنه یا به قول خودمون بفهمه؟ هوش مصنوعی برای فهمیدن یک ویدئو، معمولاً فقط چند عکس (فریم) از ویدئو را جدا می‌کنه تا هنگ نکنه! اما این کار باعث می‌شه خیلی از اتفاقات مهم یا جزئیات ریز از چشمش پنهان بمونه. از طرفی، اگر بخواد تک‌تک فریم‌ها را کامل نگاه کند، به شدت کُند می‌شه و تمام منابع یک سیستم را قورت میده. راه حل چیه؟ CoPE-VideoLM پژوهشگران (استنفورد، مایکروسافت و ETH زوریخ) یک راه میان‌بر و فوق‌العاده هوشمندانه پیدا کردن. این محققین متوجه شدن که نیازی نیست هوش مصنوعی در هر ثانیه کل تصویر را پردازش کنه. در عوض، به هوش مصنوعی یاد دادند که فقط «تغییرات و حرکت‌ها» را ببینه! به زبان ساده: به جای اینکه هوش مصنوعی هر بار بیاد و کل پس‌زمینه تکراری را از نو نگاه کنه، فقط روی چیزهایی که تو ویدئو حرکت می‌کنند یا تغییر میکنند تمرکز می‌کند. نتیجه این روش چی بوده؟ ️ ۸۶٪ سرعت بیشتر ۹۳٪ سبکی بیشتر: کاهش شدید مصرف پردازشگرها. حفظ دقت: با وجود سرعت و مصرف کم منابع، مدل در ۱۴ آزمون سخت (مثل پاسخ به سوالات و درک داستان ویدئوهای طولانی) نمرات عالی گرفت. در یک کلام، این مدل جدید مثل دستیاریه که بدون نیاز به نگاه کردنِ فریم‌به‌فریم، کل ماجرای یک ویدیو را در یک چشم‌به‌هم‌زدن و با دقت بالا متوجه می‌شه! @SimorghAI ما در رسانه هوش مصنوعی سیمرغ جزئیات فنی مدل‌ها را برای شما با زبانی ساده شرح میدیم. ️ اگه دوست دارین کل مقاله شو ببینید تو سایت (https://simorghai.ir/) براتون منتشر میکنیم. (یادداوری کنیم که زبان مقاله انگلیسی)

درک ویدئو,هوش مصنوعی,CoPE,VideoLM,هوش مصنوعی سیمرغ

توضیحات

بنظر شما یک ابزار هوش مصنوعی چطوری میتونه ویدئوها را درک کنه یا به قول خودمون بفهمه؟ هوش مصنوعی برای فهمیدن یک ویدئو، معمولاً فقط چند عکس (فریم) از ویدئو را جدا می‌کنه تا هنگ نکنه! اما این کار باعث می‌شه خیلی از اتفاقات مهم یا جزئیات ریز از چشمش پنهان بمونه. از طرفی، اگر بخواد تک‌تک فریم‌ها را کامل نگاه کند، به شدت کُند می‌شه و تمام منابع یک سیستم را قورت میده. راه حل چیه؟ CoPE-VideoLM پژوهشگران (استنفورد، مایکروسافت و ETH زوریخ) یک راه میان‌بر و فوق‌العاده هوشمندانه پیدا کردن. این محققین متوجه شدن که نیازی نیست هوش مصنوعی در هر ثانیه کل تصویر را پردازش کنه. در عوض، به هوش مصنوعی یاد دادند که فقط «تغییرات و حرکت‌ها» را ببینه! به زبان ساده: به جای اینکه هوش مصنوعی هر بار بیاد و کل پس‌زمینه تکراری را از نو نگاه کنه، فقط روی چیزهایی که تو ویدئو حرکت می‌کنند یا تغییر میکنند تمرکز می‌کند. نتیجه این روش چی بوده؟ ️ ۸۶٪ سرعت بیشتر ۹۳٪ سبکی بیشتر: کاهش شدید مصرف پردازشگرها. حفظ دقت: با وجود سرعت و مصرف کم منابع، مدل در ۱۴ آزمون سخت (مثل پاسخ به سوالات و درک داستان ویدئوهای طولانی) نمرات عالی گرفت. در یک کلام، این مدل جدید مثل دستیاریه که بدون نیاز به نگاه کردنِ فریم‌به‌فریم، کل ماجرای یک ویدیو را در یک چشم‌به‌هم‌زدن و با دقت بالا متوجه می‌شه! @SimorghAI ما در رسانه هوش مصنوعی سیمرغ جزئیات فنی مدل‌ها را برای شما با زبانی ساده شرح میدیم. ️ اگه دوست دارین کل مقاله شو ببینید تو سایت (https://simorghai.ir/) براتون منتشر میکنیم. (یادداوری کنیم که زبان مقاله انگلیسی)