وقتی انسان چهره ای آشنا یا وسیله نقلیه ای را که در حال نزدیک شدن است می بیند، فقط ۱۰۰ میلی ثانیه (حدود یک دهم ثانیه) از مغز طول می کشد تا آن را شناسایی کند و مهمتر از آن،این است که آن را در زمینه مناسب قرار دهد تا بتواند آن را درک کند. بنابراین فرد می تواند بر این اساس واکنش نشان دهد. جای تعجب نیست که کامپیوترها ممکن است بتوانند این کار را سریعتر انجام دهند، اما آیا در دنیای واقعی به اندازه انسانها دقیق هستند؟
میتوان به کامپیوترها یاد داد که دادههای دریافتی ، مانند مشاهده چهرهها و اتومبیلها، با استفاده از هوش مصنوعی معروف به شبکههای عصبی عمیق یا یادگیری عمیق را پردازش کنند.این نوع فرآیند یادگیری ماشینی از گرهها یا نورونهای به هم پیوسته در ساختار لایهای که شبیه مغز انسان است استفاده میکند. کامپیوترها، علیرغم قدرت و وعده یادگیری عمیق، هنوز بر محاسبات انسانی تسلط ندارند و مهمتر از همه، ارتباطی است که بین بدن و مغز وجود دارد، به ویژه هنگامی که صحبت از تشخیص بصری می شود. محققان معتقدند شبکههای عصبی عمیق، اگرچه امیدوارکننده هستند، اما بهعنوان مدلهای محاسباتی کامل بینایی انسان فاصله زیادی دارند.
مطالعات قبلی نشان دادهاند که یادگیری عمیق نمیتواند شناخت بصری انسان را بهطور کامل بازتولید کند، اما تعداد کمی تلاش کردهاند تا مشخص کنند که یادگیری عمیق بینایی انسان در تقلید از کدام جنبهها ناکام است. این تیم از یک آزمایش پزشکی غیر تهاجمی به نام مگنتوآنسفالوگرافی (MEG) استفاده کردند که میدان های مغناطیسی تولید شده توسط جریان های الکتریکی مغز را اندازه گیری می کند. محققان با استفاده از دادههای MEG بهدستآمده از ناظران انسانی در حین مشاهده شی، یک نقطه کلیدی شکست را شناسایی کردند. آنها دریافتند که بخشهایی از اشیاء که به راحتی قابل نامگذاری هستند، مانند «چشم» و «صورت»، میتوانند واریانس دینامیک عصبی انسان را بیش از آنچه یادگیری عمیق میتواند ارائه دهد، توضیح دهد.
این یافتهها نشان میدهد که شبکههای عصبی عمیق و انسانها ممکن است تا حدی به ویژگیهای شیء مختلف برای شناسایی بصری تکیه کنند و دستورالعملهایی برای بهبود مدل ارائه دهند. این مطالعه نشان میدهد که شبکههای عصبی عمیق نمیتوانند به طور کامل پاسخهای عصبی اندازهگیری شده در ناظران انسانی را در زمانی که افراد در حال مشاهده عکسهای اشیا، از جمله صورت و حیوانات و پیامدهای عمدهای برای استفاده از مدلهای یادگیری عمیق در تنظیمات دنیای واقعی، مانند رانندگی وسایل نقلیه را توضیح دهند.
کشف سرنخهایی در مورد آنچه شبکههای عصبی از تصاویر درک نمیکنند، یعنی ویژگیهای بصری که نشاندهنده دستهبندی اشیاء مرتبط با محیط زیست مانند چهرهها و حیوانات هستند. شبکههای عصبی را میتوان بهعنوان مدلهایی از مغز، با دادن تجربهای شبیه به انسان به آنها، مانند یک رژیم آموزشی که بر فشارهای رفتاری که انسانها در طول سالها تحت آن قرار میگیرند، بهبود بخشید. برای مثال، برای انسانها مهم است که به سرعت تشخیص دهند که آیا یک شی حیوانی در حال نزدیک شدن است یا خیر و اگر چنین است، حرکت بعدی آن را پیش بینی کند. ادغام این فشارها در طول آموزش ممکن است به توانایی رویکردهای یادگیری عمیق برای مدلسازی بینایی انسان کمک کند.