خانه > فناوری > شبکه های عصبی کانولوشنی ( CNN ) و بینایی ماشین
شبکه های عصبی کانولوشنی 2

شبکه های عصبی کانولوشنی ( CNN ) و بینایی ماشین

شبکه­ های عصبی کانولوشنی یا بطور مخفف CNN، به عنوان پایه و اساس سیستم­ های بینایی ماشین که امروزه مورد استفاده هستند، شناخته می ­شود. این مقاله سعی در توصیف مبدأ و ریشه و کاربرد های اصلی  CNNها دارد و بدین منظور از آزمایشاتی که در سال ۱۹۵۰ در زمینه زیست شناسی انجام شده، بهره گرفته­ اند.

شبکه ­های عصبی کانولوشنی برای شناسایی دست ­نوشته­ ها

اولین تحقیقات انجام شده بر روی شبکه­ های عصبی کانولوشنی امروزی، در سال ۱۹۹۰ با الهام گرفتن از موضوع نئوکاگنیترون، رخ داده ­است. در مقاله­ ای با عنوان  “بکارگیری یادگیری مبتنی بر گرادیان برای شناسایی مستندات ” توسط یان لکان ( درحال حاضر ۱۹٫۲۱۸ ارجاع دارد )، مشخص شده ­است که مدل CNN با تبدیل ویژگی­ های ساده به ویژگی­ هایی پیچیده و مفید تر، می تواند به خوبی برای شناسایی کاراکتر های دست ­نوشته­ ها مورد استفاده قرارگیرد.

درآن مقاله، لکان یک CNN را بوسیله ارقام دست نویسی شده در مجموعه داده MNIST، آموزش می دهد. MNIST یک مجموعه داده مطرح در این زمینه می ­باشد و شامل تصاویری از ارقام دست­نویسی ­شده به همراه برچسب مناسبشان می ­باشد ( مقادیر برچسب­ ها ۰، ۱، ۲، ۳، ۴، ۵، ۶، ۷، ۸ یا ۹ است ). یک مدل CNN بوسیله نمونه تصویرهای درون مجموعه داده MNIST‌ آموزش ­داده می ­شود. پرسش تعیین کننده و مد نظر مدل، این است که “ کدام عدد در تصویر نمایش داده شده است” . سپس مدل براساس پیش­بینی درست یا نادرستی که برای پاسخ به این پرسش در نظر گرفته ­است، بروزرسانی می ­شود. امروزه مدل اصطلاحاً state-of-art CNN می ­تواند پیش­بینی ­های تقریباً دقیقی را روی دسته ­بندی ارقام MNIST ارائه دهد.

تصویر بالا نمونه ­ای از ارقام دست ­نویس در مجموعه داده MNIST نشان می ­دهد.

شبکه ­های عصبی کانولوشن برای مشاهده همه چیز

در سال ­های ۱۹۹۰ تا ۲۰۰۰، تحقیقات زیادی روی مدل CNN انجام شد. درحدود سال ۲۰۱۲، این CNN ها محبوبیت بسیار زیادی بدست ­آوردند ( که این موضوع تا به امروز نیز ادامه دارد ) که دلیل آن دست یابی یک مدل CNN به نام AlexNet به توانایی شناسایی و برچسب زنی تصاویر در چالش ImageNet بود. اَلکس کریژوسکی و همکارانش بر اساس مدل پایه CNN مقاله­ ای با عنوان “ دسته­ بندی ImageNet با استفاده از شبکه­ های عصبی کانولوشنی عمیق”  منتشر کردند که در این مقاله مدل AlexNet را در زمینه شناسایی ارائه دادند ( این مقاله تا به امروز ۴۱٫۹۷۶ ارجاع داشته است ).

همانند مجموعه داده MNIST، ImageNet نیز مجموعه داده­ ای از تصاویر و برچسب­ های مناسب آن ها می­ باشد که بسیار مطرح است و به رایگان دردسترس عموم می ­باشد. ImageNet برخلاف MNIST، بجای تمرکز بر روی اعداد دست ­نویس که با مقادیر ۰-۹ برچسب گذاری شده ­اند، روی  “تصاویر طبیعی ” و درواقع تصاویری از جهان واقعی که بوسیله پارامترهای خاص و گوناگونی از توصیف­ کننده­ ها برچسب­ گذاری شده­ اند، مانند  “دوزیست” ،  “مبلمان ”، “ شخص”  و …، تمرکز دارد. درواقع برچسب ­ها به وسیله ی تلاش عظیم انسان ها مشخص شده اند ( به عبارت دیگر برچسب ­گذاری صورت دستی انجام شده و از شخصی خواسته شده تا برای همه تصاویر، برچسبی در قالب پاسخی به پرسشِ “این تصویرِ چه چیزی است”، تعیین کند ). در حال حاضر ImageNet، شامل ۱۴٫۱۹۷٫۱۲۲ تصویر می ­باشد. نمونه تصویر هایی از مجموعه داده ImageNet را در زیر مشاهده می ­فرمایید.

در طی سال­ های اخیر، شبکه ­های عصبی کانولوشنی به کارایی بسیار بالایی در زمینه ­های مختلف از جمله، توصیف و شناسایی تصاویر طبیعی ( براساس انجام آزمایش ­هایی روی مجموعه داده­های ImageNet، CIFAR-10، CIFAR-100، VisualGenome )، شناسایی چهره ( آزمایش روی مجموعه داده CelebA )، تجزیه و تحلیل تصاویر پزشکی ( آزمایش روی مجموعه داده­ های chest x-rays، photos of skin lesions و histopathology slides )، دست ­یافته ­اند . وبسایت “ CD Datasets on the web ” لیستی طولانی شامل پنجاه مجموعه داده شامل تصاویر برچسب گذاری­ شده، ارائه داده است که محققان می ­توانند از آن ها برای آموزش و ارزیابی شبکه­ های عصبی کانولوشنی ( CNNs ) و سایر مدل­ های بینایی ماشین، استفاده کنند.

اپلیکیشن ­های زیادی در این زمینه توسط کمپانی ­های مختلف توسعه داده شده اند، یکی از این برنامه­ ها SeeingAl می­ باشد که یک اپلیکیشن برای گوشی ­های هوشمند است و می­ تواند موجودیت ­های اطراف را شناسایی کرده و آن ها را به طور شنیداری برای افراد نابینا توصیف کند.

CNN و بینایی انسان

یکی از بحث ­های مطرح در زمینه شبکه ­های عصبی کانولوشنی (CNN  ) آن است که این مدل ­های شبکه­ های عصبی چگونه از “به طور مستقیم از مغز انسان الهام گرفته شده ­است. از بعضی نظر ها این درست است، از آنجایی که هم CNN و هم سیستم بینایی انسان، معماری و ساختاری “ساده-به-پیچیده ” و سلسله مراتبی دارند، می توان ارتباط مستقیم مغز انسان و شبکه عصبی را در قالب این مدل ­ها توصیف و بطور خلاصه بیان کرد: مغزها به وسیله ی سلول ­ها ساخته شده­ اند و بطور مشابه، شبکه ­های عصبی بوسیله عملگر های ریاضیاتی ساخته شده­ اند.

ویدیو زیر در مورد “تولباکس نمایانگر عمیق ( Deep Visualization Toolbox )” که توسط جیسون یوسینسکی آماده شده، درمورد چگونگی دریافت و استفاده از ویژگی ­های ساده توسط نرون های CNN برای شناسایی ویژگی ­های پیچیده و مورد کاربرد تر مانند چهره ­ها و کتاب ­ها می ­باشد؛ و قطعاً برای درک بهتر موضوعات مطرح شده، ارزش دیدن را دارد.

نتیجه­ گیری

شبکه ­های عصبی و بینایی ماشین تغییر و تحولات زیادی را در دهه­ های اخیر تجربه کرده­ است. تصور اینکه در آینده چه توسعه ­هایی در این زمینه رخ خواهد داد و مشاهده ترقی تکنولوژی­ های مطرح در این زمینه مانند تفسیر اتوماتیک تصاویر رادیولوژی و ماشی ن­های خودران و امثال این  ­ها، بسیار هیجان انگیز خواهد بود.

بیشتر بخوانید :

منبع Glass Box Medicine
0/5 ( 0 نظر )

درباره‌ی احمدرضا جعفری

همچنین ببینید

یادگیری عمیق به زبان ساده شبکه باور عمیق

یادگیری عمیق به زبان ساده : شبکه باور عمیق – قسمت هفتم

یک ماشین بولتزمن محدود شده ( RBM ) می تواند ویژگی ها را استخراج کرده …

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *