جستجو برای {{value}}

در دسته بندی ها {{value}}
نتایج {{value}} {{item.title}}

استفاده از صدا برای مدل‌سازی جهان

استفاده از صدا برای مدل‌سازی جهان

 

این سیستم یادگیری ماشین می‌تواند شبیه‌سازی کند که یک شنونده چگونه یک صدا را از هر نقطه‌ای در یک اتاق می‌شنود.

 

 

تصور کنید آکوردهای پرطنین یک ارگ لوله‌ای که در تالار عظیم یک کلیسای سنگی طنین‌انداز می‌شود. صدایی که یک فرد حاضر در کلیسا می‌شنود، تحت تأثیر عوامل زیادی قرار دارد، از جمله محل قرارگیری ارگ، موقعیت ایستادن شنونده، وجود ستون‌ها، نیمکت‌ها یا سایر موانع بین آن‌ها، جنس دیوارها، محل قرارگیری پنجره‌ها یا درگاه‌ها و غیره. شنیدن یک صدا می‌تواند به فرد کمک کند تا محیط اطراف خود را تصور کند.

 

پژوهشگران MIT و آزمایشگاه هوش مصنوعی MIT-IBM Watson در حال بررسی استفاده از اطلاعات صوتی فضایی برای کمک به ماشین‌ها در درک بهتر محیط‌های خود هستند. آن‌ها یک مدل یادگیری ماشین توسعه داده‌اند که می‌تواند نحوه انتشار هر صدایی در یک فضا را ثبت کند و به مدل اجازه دهد شبیه‌سازی کند که یک شنونده در مکان‌های مختلف چه چیزی می‌شنود.

 

با مدل‌سازی دقیق آکوستیک یک صحنه، سیستم می‌تواند هندسه سه‌بعدی پنهان یک اتاق را از طریق ضبط‌های صوتی بیاموزد. پژوهشگران می‌توانند از اطلاعات صوتی که سیستم آن‌ها ثبت می‌کند برای ساخت بازنمایی‌های بصری دقیق از یک اتاق استفاده کنند، مشابه با نحوه‌ای که انسان‌ها از صدا برای برآورد ویژگی‌های محیط فیزیکی خود بهره می‌برند.

 

علاوه بر کاربردهای بالقوه در واقعیت مجازی و افزوده، این تکنیک می‌تواند به عامل‌های هوش مصنوعی کمک کند تا درک بهتری از جهان اطراف خود پیدا کنند. به عنوان مثال، با مدل‌سازی ویژگی‌های صوتی محیط خود، یک ربات کاوشگر زیر آب می‌تواند اشیایی را که فراتر از محدوده دیدش قرار دارند، شناسایی کند.

صدا و بینایی

در تحقیقات بینایی رایانه‌ای، نوعی مدل یادگیری ماشین به نام "نمایش عصبی ضمنی" برای تولید بازسازی‌های سه‌بعدی پیوسته از تصاویر استفاده شده است. پژوهشگران MIT از همین نوع مدل برای ثبت نحوه انتشار صدا در یک صحنه بهره برده‌اند.

اما آن‌ها دریافتند که مدل‌های بینایی از خاصیتی به نام "سازگاری فوتومتریک" بهره می‌برند که در مورد صدا صدق نمی‌کند. اگر به یک شیء از دو زاویه مختلف نگاه کنید، ظاهر آن تقریباً یکسان است، اما اگر محل شنونده تغییر کند، صدای دریافتی می‌تواند کاملاً متفاوت باشد.

 

پژوهشگران این مشکل را با ادغام دو ویژگی آکوستیکی در مدل خود حل کردند: طبیعت بازتابی صدا و تأثیر ویژگی‌های هندسی محلی.

 

صدا خاصیتی بازتابی دارد، یعنی اگر منبع صدا و شنونده جای خود را عوض کنند، صدای شنیده‌شده تغییری نمی‌کند. همچنین، آنچه فرد در یک منطقه خاص می‌شنود، به شدت تحت تأثیر ویژگی‌های محلی مانند وجود یک مانع است.

 

مدل‌سازی صحنه‌ها از طریق پیش‌بینی صداها

پژوهشگران می‌توانند به مدل اطلاعات بصری یک صحنه و چند اسپکتروگرام ارائه دهند تا نشان دهند یک فایل صوتی در موقعیت‌های مختلف اتاق چگونه شنیده می‌شود. سپس مدل پیش‌بینی می‌کند که اگر شنونده به نقطه دیگری در صحنه حرکت کند، آن صدا چگونه تغییر می‌کند.

این مدل می‌تواند پاسخ ضربه‌ای تولید کند که نحوه تغییر یک صدا هنگام انتشار در یک صحنه را ثبت می‌کند. پژوهشگران سپس این پاسخ ضربه‌ای را به صداهای مختلف اعمال می‌کنند تا ببینند چگونه این صداها هنگام حرکت در یک اتاق تغییر می‌کنند.

این تکنیک در مقایسه با روش‌های دیگر مدل‌سازی اطلاعات آکوستیکی، مدل‌های صوتی دقیق‌تری تولید کرده و توانسته است به‌خوبی به مکان‌های جدید در یک صحنه تعمیم یابد.

افزون بر این، پژوهشگران دریافتند که استفاده از اطلاعات صوتی مدل‌شده می‌تواند به بازسازی بصری دقیق‌تری از صحنه منجر شود. برنامه‌های آتی شامل بهبود مدل برای تعمیم به صحنه‌های جدید و پیچیده‌تر، از جمله ساختمان‌های کامل یا حتی شهرها خواهد بود.

 

این پژوهش با حمایت آزمایشگاه هوش مصنوعی MIT-IBM Watson و مؤسسه Tianqiao و Chrissy Chen انجام شده است.

تاریخ انتشار : ۱۴۰۳/۱۱/۱۵ به روزشده در : ۱۴۰۳/۱۱/۱۶ / تعداد بازدید : ۸۶

ارسال نظر

دیدگاه