درک سریعتر ویدیوها با CoPE-VideoLM ، رسانه هوش مصنوعی سیمرغ
بنظر شما یک ابزار هوش مصنوعی چطوری میتونه ویدئوها را درک کنه یا به قول خودمون بفهمه؟ هوش مصنوعی برای فهمیدن یک ویدئو، معمولاً فقط چند عکس (فریم) از ویدئو را جدا میکنه تا هنگ نکنه! اما این کار باعث میشه خیلی از اتفاقات مهم یا جزئیات ریز از چشمش پنهان بمونه. از طرفی، اگر بخواد تکتک فریمها را کامل نگاه کند، به شدت کُند میشه و تمام منابع یک سیستم را قورت میده. راه حل چیه؟ CoPE-VideoLM پژوهشگران (استنفورد، مایکروسافت و ETH زوریخ) یک راه میانبر و فوقالعاده هوشمندانه پیدا کردن. این محققین متوجه شدن که نیازی نیست هوش مصنوعی در هر ثانیه کل تصویر را پردازش کنه. در عوض، به هوش مصنوعی یاد دادند که فقط «تغییرات و حرکتها» را ببینه! به زبان ساده: به جای اینکه هوش مصنوعی هر بار بیاد و کل پسزمینه تکراری را از نو نگاه کنه، فقط روی چیزهایی که تو ویدئو حرکت میکنند یا تغییر میکنند تمرکز میکند. نتیجه این روش چی بوده؟ ️ ۸۶٪ سرعت بیشتر ۹۳٪ سبکی بیشتر: کاهش شدید مصرف پردازشگرها. حفظ دقت: با وجود سرعت و مصرف کم منابع، مدل در ۱۴ آزمون سخت (مثل پاسخ به سوالات و درک داستان ویدئوهای طولانی) نمرات عالی گرفت. در یک کلام، این مدل جدید مثل دستیاریه که بدون نیاز به نگاه کردنِ فریمبهفریم، کل ماجرای یک ویدیو را در یک چشمبههمزدن و با دقت بالا متوجه میشه! @SimorghAI ما در رسانه هوش مصنوعی سیمرغ جزئیات فنی مدلها را برای شما با زبانی ساده شرح میدیم. ️ اگه دوست دارین کل مقاله شو ببینید تو سایت (https://simorghai.ir/) براتون منتشر میکنیم. (یادداوری کنیم که زبان مقاله انگلیسی)
درک ویدئو,هوش مصنوعی,CoPE,VideoLM,هوش مصنوعی سیمرغ