شبکه های عصبی کانولوشنی ( CNN ) و بینایی ماشین

1 جولای, 2019 فناوری یک نظر

شبکه های عصبی کانولوشنی یا بطور مخفف CNN، به عنوان پایه و اساس سیستم های بینایی ماشین که امروزه مورد استفاده هستند، شناخته می شود. این مقاله سعی در توصیف مبدأ و ریشه و کاربرد های اصلی CNNها دارد و بدین منظور از آزمایشاتی که در سال ۱۹۵۰ در زمینه زیست شناسی انجام شده، بهره گرفته اند.

شبکه های عصبی کانولوشنی برای شناسایی دست نوشته ها

اولین تحقیقات انجام شده بر روی شبکه های عصبی کانولوشنی امروزی، در سال ۱۹۹۰ با الهام گرفتن از موضوع نئوکاگنیترون، رخ داده است. در مقاله ای با عنوان “بکارگیری یادگیری مبتنی بر گرادیان برای شناسایی مستندات ” توسط یان لکان ( درحال حاضر ۱۹٫۲۱۸ ارجاع دارد )، مشخص شده است که مدل CNN با تبدیل ویژگی های ساده به ویژگی هایی پیچیده و مفید تر، می تواند به خوبی برای شناسایی کاراکتر های دست نوشته ها مورد استفاده قرارگیرد.

درآن مقاله، لکان یک CNN را بوسیله ارقام دست نویسی شده در مجموعه داده MNIST، آموزش می دهد. MNIST یک مجموعه داده مطرح در این زمینه می باشد و شامل تصاویری از ارقام دستنویسی شده به همراه برچسب مناسبشان می باشد ( مقادیر برچسب ها ۰، ۱، ۲، ۳، ۴، ۵، ۶، ۷، ۸ یا ۹ است ). یک مدل CNN بوسیله نمونه تصویرهای درون مجموعه داده MNIST‌ آموزش داده می شود. پرسش تعیین کننده و مد نظر مدل، این است که “ کدام عدد در تصویر نمایش داده شده است” . سپس مدل براساس پیشبینی درست یا نادرستی که برای پاسخ به این پرسش در نظر گرفته است، بروزرسانی می شود. امروزه مدل اصطلاحاً state-of-art CNN می تواند پیشبینی های تقریباً دقیقی را روی دسته بندی ارقام MNIST ارائه دهد.

تصویر بالا نمونه ای از ارقام دست نویس در مجموعه داده MNIST نشان می دهد.

شبکه های عصبی کانولوشن برای مشاهده همه چیز

در سال های ۱۹۹۰ تا ۲۰۰۰، تحقیقات زیادی روی مدل CNN انجام شد. درحدود سال ۲۰۱۲، این CNN ها محبوبیت بسیار زیادی بدست آوردند ( که این موضوع تا به امروز نیز ادامه دارد ) که دلیل آن دست یابی یک مدل CNN به نام AlexNet به توانایی شناسایی و برچسب زنی تصاویر در چالش ImageNet بود. اَلکس کریژوسکی و همکارانش بر اساس مدل پایه CNN مقاله ای با عنوان “ دسته بندی ImageNet با استفاده از شبکه های عصبی کانولوشنی عمیق” منتشر کردند که در این مقاله مدل AlexNet را در زمینه شناسایی ارائه دادند ( این مقاله تا به امروز ۴۱٫۹۷۶ ارجاع داشته است ).

همانند مجموعه داده MNIST، ImageNet نیز مجموعه داده ای از تصاویر و برچسب های مناسب آن ها می باشد که بسیار مطرح است و به رایگان دردسترس عموم می باشد. ImageNet برخلاف MNIST، بجای تمرکز بر روی اعداد دست نویس که با مقادیر ۰-۹ برچسب گذاری شده اند، روی “تصاویر طبیعی ” و درواقع تصاویری از جهان واقعی که بوسیله پارامترهای خاص و گوناگونی از توصیف کننده ها برچسب گذاری شده اند، مانند “دوزیست” ، “مبلمان ”، “ شخص” و …، تمرکز دارد. درواقع برچسب ها به وسیله ی تلاش عظیم انسان ها مشخص شده اند ( به عبارت دیگر برچسب گذاری صورت دستی انجام شده و از شخصی خواسته شده تا برای همه تصاویر، برچسبی در قالب پاسخی به پرسشِ “این تصویرِ چه چیزی است”، تعیین کند ). در حال حاضر ImageNet، شامل ۱۴٫۱۹۷٫۱۲۲ تصویر می باشد. نمونه تصویر هایی از مجموعه داده ImageNet را در زیر مشاهده می فرمایید.

در طی سال های اخیر، شبکه های عصبی کانولوشنی به کارایی بسیار بالایی در زمینه های مختلف از جمله، توصیف و شناسایی تصاویر طبیعی ( براساس انجام آزمایش هایی روی مجموعه دادههای ImageNet، CIFAR-10، CIFAR-100، VisualGenome )، شناسایی چهره ( آزمایش روی مجموعه داده CelebA )، تجزیه و تحلیل تصاویر پزشکی ( آزمایش روی مجموعه داده های chest x-rays، photos of skin lesions و histopathology slides )، دست یافته اند . وبسایت “ CD Datasets on the web ” لیستی طولانی شامل پنجاه مجموعه داده شامل تصاویر برچسب گذاری شده، ارائه داده است که محققان می توانند از آن ها برای آموزش و ارزیابی شبکه های عصبی کانولوشنی ( CNNs ) و سایر مدل های بینایی ماشین، استفاده کنند.

اپلیکیشن های زیادی در این زمینه توسط کمپانی های مختلف توسعه داده شده اند، یکی از این برنامه ها SeeingAl می باشد که یک اپلیکیشن برای گوشی های هوشمند است و می تواند موجودیت های اطراف را شناسایی کرده و آن ها را به طور شنیداری برای افراد نابینا توصیف کند.

CNN و بینایی انسان

یکی از بحث های مطرح در زمینه شبکه های عصبی کانولوشنی (CNN ) آن است که این مدل های شبکه های عصبی چگونه از “به طور مستقیم از مغز انسان الهام گرفته شده است. از بعضی نظر ها این درست است، از آنجایی که هم CNN و هم سیستم بینایی انسان، معماری و ساختاری “ساده-به-پیچیده ” و سلسله مراتبی دارند، می توان ارتباط مستقیم مغز انسان و شبکه عصبی را در قالب این مدل ها توصیف و بطور خلاصه بیان کرد: مغزها به وسیله ی سلول ها ساخته شده اند و بطور مشابه، شبکه های عصبی بوسیله عملگر های ریاضیاتی ساخته شده اند.

ویدیو زیر در مورد “تولباکس نمایانگر عمیق ( Deep Visualization Toolbox )” که توسط جیسون یوسینسکی آماده شده، درمورد چگونگی دریافت و استفاده از ویژگی های ساده توسط نرون های CNN برای شناسایی ویژگی های پیچیده و مورد کاربرد تر مانند چهره ها و کتاب ها می باشد؛ و قطعاً برای درک بهتر موضوعات مطرح شده، ارزش دیدن را دارد.

نتیجه گیری

شبکه های عصبی و بینایی ماشین تغییر و تحولات زیادی را در دهه های اخیر تجربه کرده است. تصور اینکه در آینده چه توسعه هایی در این زمینه رخ خواهد داد و مشاهده ترقی تکنولوژی های مطرح در این زمینه مانند تفسیر اتوماتیک تصاویر رادیولوژی و ماشی نهای خودران و امثال این ها، بسیار هیجان انگیز خواهد بود.