مدلهای زبانی بزرگ (LLMs) که عمدتاً بر اساس متن آموزش دیدهاند، میتوانند مفاهیم بصری پیچیدهای را از طریق کدنویسی و اصلاح خودکار تولید کنند. پژوهشگران از این تصاویر برای آموزش یک سیستم بینایی ماشین بدون نیاز به دادههای تصویری استفاده کردند تا بتواند عکسهای واقعی را شناسایی کند.
شاید شنیده باشید که «یک تصویر به اندازه هزار کلمه ارزش دارد»، اما آیا یک مدل زبانی بزرگ میتواند تصویر را درک کند حتی اگر هرگز تصویری ندیده باشد؟
همانطور که مشخص شد، مدلهای زبانی که صرفاً بر اساس متن آموزش دیدهاند، درک محکمی از دنیای بصری دارند. این مدلها میتوانند کدهایی برای تولید تصاویر بنویسند که صحنههای پیچیدهای با اشیاء و ترکیبات جالب ایجاد میکنند—و حتی زمانی که این دانش به درستی استفاده نمیشود، مدلهای زبانی میتوانند تصاویر خود را اصلاح کنند. پژوهشگران آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) این موضوع را هنگام درخواست از مدلهای زبانی برای اصلاح کدهای تولید تصویر مشاهده کردند، جایی که سیستمها با هر بار درخواست، نقاشیهای ساده خود را بهبود میبخشیدند.
دانش بصری این مدلهای زبانی از نحوه توصیف مفاهیمی مانند اشکال و رنگها در سراسر اینترنت، چه در زبان و چه در کد، به دست میآید. هنگامی که دستوری مانند «یک طوطی در جنگل بکش» به مدل داده میشود، مدل آنچه را که قبلاً در توصیفها خوانده است در نظر میگیرد. برای ارزیابی میزان دانش بصری مدلهای زبانی، تیم CSAIL یک "آزمون بینایی" طراحی کرد: آنها از "مجموعه دادههای توانایی بصری" خود برای آزمایش توانایی مدلها در ترسیم، شناسایی و اصلاح خودکار این مفاهیم استفاده کردند. پژوهشگران با جمعآوری نسخههای نهایی این تصاویر، سیستمی برای بینایی ماشین آموزش دادند که میتواند محتوای عکسهای واقعی را شناسایی کند.
"ما اساساً یک سیستم بینایی را بدون استفاده مستقیم از دادههای بصری آموزش میدهیم،" میگوید تامار رات شاهام، نویسنده همکار این مطالعه و پژوهشگر پسادکترای مهندسی برق و علوم کامپیوتر MIT در CSAIL. "تیم ما از مدلهای زبانی درخواست کرد که کدهای تولید تصویر بنویسند تا دادههایی برای ما تولید کنند و سپس سیستم بینایی را برای ارزیابی تصاویر طبیعی آموزش دادیم. ما از این سوال الهام گرفتیم که چگونه مفاهیم بصری از طریق رسانههای دیگر مانند متن نمایش داده میشوند. برای بیان دانش بصری خود، مدلهای زبانی میتوانند از کد به عنوان زبان مشترک بین متن و تصویر استفاده کنند."
برای ساخت این مجموعه داده، پژوهشگران ابتدا از مدلها درخواست کردند کدهایی برای اشکال، اشیاء و صحنههای مختلف تولید کنند. سپس آن کدها را برای ایجاد تصاویر دیجیتالی ساده—مانند ردیفی از دوچرخهها—تبدیل کردند، که نشان میدهد مدلهای زبانی به اندازه کافی روابط فضایی را درک میکنند تا بتوانند دوچرخهها را در یک ردیف افقی بکشند. به عنوان مثالی دیگر، مدل یک کیک به شکل ماشین تولید کرد که ترکیبی از دو مفهوم تصادفی بود. همچنین مدل یک لامپ درخشان تولید کرد که توانایی آن را در ایجاد جلوههای بصری نشان میدهد.
"کار ما نشان میدهد که وقتی از یک مدل زبانی (بدون پیشآموزش چندرسانهای) میخواهید یک تصویر ایجاد کند، بیش از آنچه به نظر میرسد میداند،" میگوید پراتیوشا شارما، نویسنده همکار، دانشجوی دکترای EECS و عضو CSAIL. "فرض کنید از آن میخواهید یک صندلی بکشد. مدل چیزهای دیگری درباره این قطعه از مبلمان میداند که شاید بلافاصله آن را نمایش ندهد، بنابراین کاربران میتوانند از مدل درخواست کنند تا تصویری که تولید میکند را در هر تکرار بهبود ببخشد. شگفتانگیز است که مدل میتواند به طور تکراری نقاشی را با بهبود کد تولید تصویر غنیتر کند."
پژوهشگران این تصاویر را جمعآوری کردند و از آنها برای آموزش یک سیستم بینایی ماشین استفاده کردند که میتواند اشیاء موجود در عکسهای واقعی را شناسایی کند، حتی اگر هرگز قبلاً یک عکس واقعی ندیده باشد. این سیستم، با داشتن دادههای مصنوعی تولیدشده بر اساس متن به عنوان تنها مرجع خود، عملکرد بهتری نسبت به سایر مجموعه دادههای تصویری تولید شده به صورت رویهای داشت که با عکسهای واقعی آموزش دیده بودند.
تیم CSAIL معتقد است که ترکیب دانش بصری پنهان مدلهای زبانی با تواناییهای هنری سایر ابزارهای هوش مصنوعی مانند مدلهای انتشار (diffusion models) میتواند مفید باشد. سیستمهایی مانند Midjourney گاهی فاقد توانایی برای تنظیم جزئیات ظریف در یک تصویر هستند، و این باعث میشود که انجام درخواستهایی مانند کاهش تعداد ماشینهای موجود در تصویر یا قرار دادن یک شیء پشت شیء دیگر دشوار باشد. اگر یک مدل زبانی پیش از مدل انتشار تغییرات درخواستی را ترسیم کند، ویرایش نهایی میتواند رضایتبخشتر باشد.
نکته جالب، همانطور که رات شاهام و شارما اشاره میکنند، این است که مدلهای زبانی گاهی در شناسایی همان مفاهیمی که میتوانند بکشند ناکام میمانند. این موضوع زمانی روشن شد که مدلها بازآفرینیهای انسانی از تصاویر موجود در مجموعه داده را به اشتباه شناسایی کردند. چنین نمایشهای متنوعی از دنیای بصری احتمالاً باعث ایجاد سوءتفاهم در مدلهای زبانی شده است.
در حالی که مدلها در درک این نمایشهای انتزاعی مشکل داشتند، توانایی خلق تصاویر متفاوت از یک مفهوم را در هر بار نشان دادند. وقتی پژوهشگران از مدلهای زبانی درخواست کردند تا مفاهیمی مانند توتفرنگی و سالنهای بازی را چندین بار ترسیم کنند، تصاویر را از زوایای مختلف با اشکال و رنگهای متنوع تولید کردند که نشان میدهد مدلها ممکن است تصاویری ذهنی از مفاهیم بصری داشته باشند (نه اینکه صرفاً نمونههایی را که قبلاً دیدهاند تکرار کنند).
تیم CSAIL بر این باور است که این روش میتواند به عنوان یک مبنا برای ارزیابی میزان توانایی مدلهای هوش مصنوعی مولد در آموزش سیستمهای بینایی ماشین باشد. علاوه بر این، پژوهشگران قصد دارند دامنه وظایفی را که مدلهای زبانی به چالش میکشند، گسترش دهند. در مورد مطالعه اخیر آنها، گروه MIT خاطرنشان میکند که به مجموعه دادههای آموزشی مدلهای زبانی مورد استفاده خود دسترسی ندارند، که این موضوع تحقیق بیشتر درباره منشاء دانش بصری آنها را دشوار میکند. در آینده، آنها قصد دارند سیستم بینایی بهتری را با اجازه دادن به مدل زبانی برای کار مستقیم با آن آموزش دهند.
شارما و رات شاهام در این مقاله با استفانی فو، دانشآموخته سابق CSAIL و دانشجوی دکترای EECS، مانل باراداد، آدریان رودریگز-مونوز و شیوام دوگال که همگی از اعضای CSAIL هستند، همکاری داشتند. همچنین این پروژه تحت نظارت اساتید MIT، فیلیپ ایسولا و آنتونیو تورالبا انجام شد. کار آنها بخشی از حمایت مالی آزمایشگاه هوش مصنوعی MIT-IBM واتسون، بورسیه لاکایسا، برنامه رهبری STEM زاکرمن و بورسیه ویتربی بود. آنها مقاله خود را این هفته در کنفرانس بینایی ماشین و تشخیص الگو IEEE/CVF ارائه خواهند داد.
ارسال نظر