این سیستم یادگیری ماشین میتواند شبیهسازی کند که یک شنونده چگونه یک صدا را از هر نقطهای در یک اتاق میشنود.
تصور کنید آکوردهای پرطنین یک ارگ لولهای که در تالار عظیم یک کلیسای سنگی طنینانداز میشود. صدایی که یک فرد حاضر در کلیسا میشنود، تحت تأثیر عوامل زیادی قرار دارد، از جمله محل قرارگیری ارگ، موقعیت ایستادن شنونده، وجود ستونها، نیمکتها یا سایر موانع بین آنها، جنس دیوارها، محل قرارگیری پنجرهها یا درگاهها و غیره. شنیدن یک صدا میتواند به فرد کمک کند تا محیط اطراف خود را تصور کند.
پژوهشگران MIT و آزمایشگاه هوش مصنوعی MIT-IBM Watson در حال بررسی استفاده از اطلاعات صوتی فضایی برای کمک به ماشینها در درک بهتر محیطهای خود هستند. آنها یک مدل یادگیری ماشین توسعه دادهاند که میتواند نحوه انتشار هر صدایی در یک فضا را ثبت کند و به مدل اجازه دهد شبیهسازی کند که یک شنونده در مکانهای مختلف چه چیزی میشنود.
با مدلسازی دقیق آکوستیک یک صحنه، سیستم میتواند هندسه سهبعدی پنهان یک اتاق را از طریق ضبطهای صوتی بیاموزد. پژوهشگران میتوانند از اطلاعات صوتی که سیستم آنها ثبت میکند برای ساخت بازنماییهای بصری دقیق از یک اتاق استفاده کنند، مشابه با نحوهای که انسانها از صدا برای برآورد ویژگیهای محیط فیزیکی خود بهره میبرند.
علاوه بر کاربردهای بالقوه در واقعیت مجازی و افزوده، این تکنیک میتواند به عاملهای هوش مصنوعی کمک کند تا درک بهتری از جهان اطراف خود پیدا کنند. به عنوان مثال، با مدلسازی ویژگیهای صوتی محیط خود، یک ربات کاوشگر زیر آب میتواند اشیایی را که فراتر از محدوده دیدش قرار دارند، شناسایی کند.
در تحقیقات بینایی رایانهای، نوعی مدل یادگیری ماشین به نام "نمایش عصبی ضمنی" برای تولید بازسازیهای سهبعدی پیوسته از تصاویر استفاده شده است. پژوهشگران MIT از همین نوع مدل برای ثبت نحوه انتشار صدا در یک صحنه بهره بردهاند.
اما آنها دریافتند که مدلهای بینایی از خاصیتی به نام "سازگاری فوتومتریک" بهره میبرند که در مورد صدا صدق نمیکند. اگر به یک شیء از دو زاویه مختلف نگاه کنید، ظاهر آن تقریباً یکسان است، اما اگر محل شنونده تغییر کند، صدای دریافتی میتواند کاملاً متفاوت باشد.
پژوهشگران این مشکل را با ادغام دو ویژگی آکوستیکی در مدل خود حل کردند: طبیعت بازتابی صدا و تأثیر ویژگیهای هندسی محلی.
صدا خاصیتی بازتابی دارد، یعنی اگر منبع صدا و شنونده جای خود را عوض کنند، صدای شنیدهشده تغییری نمیکند. همچنین، آنچه فرد در یک منطقه خاص میشنود، به شدت تحت تأثیر ویژگیهای محلی مانند وجود یک مانع است.
پژوهشگران میتوانند به مدل اطلاعات بصری یک صحنه و چند اسپکتروگرام ارائه دهند تا نشان دهند یک فایل صوتی در موقعیتهای مختلف اتاق چگونه شنیده میشود. سپس مدل پیشبینی میکند که اگر شنونده به نقطه دیگری در صحنه حرکت کند، آن صدا چگونه تغییر میکند.
این مدل میتواند پاسخ ضربهای تولید کند که نحوه تغییر یک صدا هنگام انتشار در یک صحنه را ثبت میکند. پژوهشگران سپس این پاسخ ضربهای را به صداهای مختلف اعمال میکنند تا ببینند چگونه این صداها هنگام حرکت در یک اتاق تغییر میکنند.
این تکنیک در مقایسه با روشهای دیگر مدلسازی اطلاعات آکوستیکی، مدلهای صوتی دقیقتری تولید کرده و توانسته است بهخوبی به مکانهای جدید در یک صحنه تعمیم یابد.
افزون بر این، پژوهشگران دریافتند که استفاده از اطلاعات صوتی مدلشده میتواند به بازسازی بصری دقیقتری از صحنه منجر شود. برنامههای آتی شامل بهبود مدل برای تعمیم به صحنههای جدید و پیچیدهتر، از جمله ساختمانهای کامل یا حتی شهرها خواهد بود.
این پژوهش با حمایت آزمایشگاه هوش مصنوعی MIT-IBM Watson و مؤسسه Tianqiao و Chrissy Chen انجام شده است.
ارسال نظر