هوش مصنوعی چگونه می‌بیند؟ رمزگشایی از دانش بصری مدل‌های زبانی

5
هوش مصنوعی چگونه می‌بیند؟ رمزگشایی از دانش بصری مدل‌های زبانی

مدل‌های زبانی بزرگ (LLMs) که عمدتاً بر اساس متن آموزش دیده‌اند، می‌توانند مفاهیم بصری پیچیده‌ای را از طریق کدنویسی و اصلاح خودکار تولید کنند. پژوهشگران از این تصاویر برای آموزش یک سیستم بینایی ماشین بدون نیاز به داده‌های تصویری استفاده کردند تا بتواند عکس‌های واقعی را شناسایی کند.

شاید شنیده باشید که «یک تصویر به اندازه هزار کلمه ارزش دارد»، اما آیا یک مدل زبانی بزرگ می‌تواند تصویر را درک کند حتی اگر هرگز تصویری ندیده باشد؟

همان‌طور که مشخص شد، مدل‌های زبانی که صرفاً بر اساس متن آموزش دیده‌اند، درک محکمی از دنیای بصری دارند. این مدل‌ها می‌توانند کدهایی برای تولید تصاویر بنویسند که صحنه‌های پیچیده‌ای با اشیاء و ترکیبات جالب ایجاد می‌کنند—و حتی زمانی که این دانش به درستی استفاده نمی‌شود، مدل‌های زبانی می‌توانند تصاویر خود را اصلاح کنند. پژوهشگران آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) این موضوع را هنگام درخواست از مدل‌های زبانی برای اصلاح کدهای تولید تصویر مشاهده کردند، جایی که سیستم‌ها با هر بار درخواست، نقاشی‌های ساده خود را بهبود می‌بخشیدند.

دانش بصری این مدل‌های زبانی از نحوه توصیف مفاهیمی مانند اشکال و رنگ‌ها در سراسر اینترنت، چه در زبان و چه در کد، به دست می‌آید. هنگامی که دستوری مانند «یک طوطی در جنگل بکش» به مدل داده می‌شود، مدل آنچه را که قبلاً در توصیف‌ها خوانده است در نظر می‌گیرد. برای ارزیابی میزان دانش بصری مدل‌های زبانی، تیم CSAIL یک "آزمون بینایی" طراحی کرد: آن‌ها از "مجموعه داده‌های توانایی بصری" خود برای آزمایش توانایی مدل‌ها در ترسیم، شناسایی و اصلاح خودکار این مفاهیم استفاده کردند. پژوهشگران با جمع‌آوری نسخه‌های نهایی این تصاویر، سیستمی برای بینایی ماشین آموزش دادند که می‌تواند محتوای عکس‌های واقعی را شناسایی کند.

"ما اساساً یک سیستم بینایی را بدون استفاده مستقیم از داده‌های بصری آموزش می‌دهیم،" می‌گوید تامار رات شاهام، نویسنده همکار این مطالعه و پژوهشگر پسادکترای مهندسی برق و علوم کامپیوتر MIT در CSAIL. "تیم ما از مدل‌های زبانی درخواست کرد که کدهای تولید تصویر بنویسند تا داده‌هایی برای ما تولید کنند و سپس سیستم بینایی را برای ارزیابی تصاویر طبیعی آموزش دادیم. ما از این سوال الهام گرفتیم که چگونه مفاهیم بصری از طریق رسانه‌های دیگر مانند متن نمایش داده می‌شوند. برای بیان دانش بصری خود، مدل‌های زبانی می‌توانند از کد به عنوان زبان مشترک بین متن و تصویر استفاده کنند."

برای ساخت این مجموعه داده، پژوهشگران ابتدا از مدل‌ها درخواست کردند کدهایی برای اشکال، اشیاء و صحنه‌های مختلف تولید کنند. سپس آن کدها را برای ایجاد تصاویر دیجیتالی ساده—مانند ردیفی از دوچرخه‌ها—تبدیل کردند، که نشان می‌دهد مدل‌های زبانی به اندازه کافی روابط فضایی را درک می‌کنند تا بتوانند دوچرخه‌ها را در یک ردیف افقی بکشند. به عنوان مثالی دیگر، مدل یک کیک به شکل ماشین تولید کرد که ترکیبی از دو مفهوم تصادفی بود. همچنین مدل یک لامپ درخشان تولید کرد که توانایی آن را در ایجاد جلوه‌های بصری نشان می‌دهد.

 

"کار ما نشان می‌دهد که وقتی از یک مدل زبانی (بدون پیش‌آموزش چندرسانه‌ای) می‌خواهید یک تصویر ایجاد کند، بیش از آنچه به نظر می‌رسد می‌داند،" می‌گوید پراتیوشا شارما، نویسنده همکار، دانشجوی دکترای EECS و عضو CSAIL. "فرض کنید از آن می‌خواهید یک صندلی بکشد. مدل چیزهای دیگری درباره این قطعه از مبلمان می‌داند که شاید بلافاصله آن را نمایش ندهد، بنابراین کاربران می‌توانند از مدل درخواست کنند تا تصویری که تولید می‌کند را در هر تکرار بهبود ببخشد. شگفت‌انگیز است که مدل می‌تواند به طور تکراری نقاشی را با بهبود کد تولید تصویر غنی‌تر کند."

پژوهشگران این تصاویر را جمع‌آوری کردند و از آن‌ها برای آموزش یک سیستم بینایی ماشین استفاده کردند که می‌تواند اشیاء موجود در عکس‌های واقعی را شناسایی کند، حتی اگر هرگز قبلاً یک عکس واقعی ندیده باشد. این سیستم، با داشتن داده‌های مصنوعی تولیدشده بر اساس متن به عنوان تنها مرجع خود، عملکرد بهتری نسبت به سایر مجموعه داده‌های تصویری تولید شده به صورت رویه‌ای داشت که با عکس‌های واقعی آموزش دیده بودند.

تیم CSAIL معتقد است که ترکیب دانش بصری پنهان مدل‌های زبانی با توانایی‌های هنری سایر ابزارهای هوش مصنوعی مانند مدل‌های انتشار (diffusion models) می‌تواند مفید باشد. سیستم‌هایی مانند Midjourney گاهی فاقد توانایی برای تنظیم جزئیات ظریف در یک تصویر هستند، و این باعث می‌شود که انجام درخواست‌هایی مانند کاهش تعداد ماشین‌های موجود در تصویر یا قرار دادن یک شیء پشت شیء دیگر دشوار باشد. اگر یک مدل زبانی پیش از مدل انتشار تغییرات درخواستی را ترسیم کند، ویرایش نهایی می‌تواند رضایت‌بخش‌تر باشد.

 



 

نکته جالب، همان‌طور که رات شاهام و شارما اشاره می‌کنند، این است که مدل‌های زبانی گاهی در شناسایی همان مفاهیمی که می‌توانند بکشند ناکام می‌مانند. این موضوع زمانی روشن شد که مدل‌ها بازآفرینی‌های انسانی از تصاویر موجود در مجموعه داده را به اشتباه شناسایی کردند. چنین نمایش‌های متنوعی از دنیای بصری احتمالاً باعث ایجاد سوءتفاهم در مدل‌های زبانی شده است.

در حالی که مدل‌ها در درک این نمایش‌های انتزاعی مشکل داشتند، توانایی خلق تصاویر متفاوت از یک مفهوم را در هر بار نشان دادند. وقتی پژوهشگران از مدل‌های زبانی درخواست کردند تا مفاهیمی مانند توت‌فرنگی و سالن‌های بازی را چندین بار ترسیم کنند، تصاویر را از زوایای مختلف با اشکال و رنگ‌های متنوع تولید کردند که نشان می‌دهد مدل‌ها ممکن است تصاویری ذهنی از مفاهیم بصری داشته باشند (نه اینکه صرفاً نمونه‌هایی را که قبلاً دیده‌اند تکرار کنند).

تیم CSAIL بر این باور است که این روش می‌تواند به عنوان یک مبنا برای ارزیابی میزان توانایی مدل‌های هوش مصنوعی مولد در آموزش سیستم‌های بینایی ماشین باشد. علاوه بر این، پژوهشگران قصد دارند دامنه وظایفی را که مدل‌های زبانی به چالش می‌کشند، گسترش دهند. در مورد مطالعه اخیر آن‌ها، گروه MIT خاطرنشان می‌کند که به مجموعه داده‌های آموزشی مدل‌های زبانی مورد استفاده خود دسترسی ندارند، که این موضوع تحقیق بیشتر درباره منشاء دانش بصری آن‌ها را دشوار می‌کند. در آینده، آن‌ها قصد دارند سیستم بینایی بهتری را با اجازه دادن به مدل زبانی برای کار مستقیم با آن آموزش دهند.

شارما و رات شاهام در این مقاله با استفانی فو، دانش‌آموخته سابق CSAIL و دانشجوی دکترای EECS، مانل باراداد، آدریان رودریگز-مونوز و شیوام دوگال که همگی از اعضای CSAIL هستند، همکاری داشتند. همچنین این پروژه تحت نظارت اساتید MIT، فیلیپ ایسولا و آنتونیو تورالبا انجام شد. کار آن‌ها بخشی از حمایت مالی آزمایشگاه هوش مصنوعی MIT-IBM واتسون، بورسیه لاکایسا، برنامه رهبری STEM زاکرمن و بورسیه ویتربی بود. آن‌ها مقاله خود را این هفته در کنفرانس بینایی ماشین و تشخیص الگو IEEE/CVF ارائه خواهند داد.


تاریخ انتشار : ۱۴۰۳/۱۱/۱۵ به روزشده در : ۱۴۰۳/۱۱/۱۷ / تعداد بازدید : ۸۹

ارسال نظر

دیدگاه