یادگیری عمیق به زبان ساده : شبکه های عصبی بازگشتی – قسمت نهم

بحث های قبلی ما درباره برنامه های کاربردی شبکه ی عمیق محدود به الگوهای استاتیک بود ، اما شبکه چگونه می تواند الگوهایی که با زمان تغییر می کنند را رمزگشایی کرده و برچسب بزند؟ به عنوان مثال ، آیا یک شبکه می تواند با اسکن تصاویر راهنمایی و رانندگی، بلافاصله پرچم تصادف را اعلام کند؟ با استفاده از یک شبکه بازگشتی ، این فعل و انفعالات در زمان واقعی، امکان پذیر است.

شبکه عصبی بازگشتی (RNN) حاصل فکری یورگن اشمیتهوبر و سپ هوکریتر است. سه شبکه عمیق که تاکنون دیده ایم MLP ،DBN  و CNN به عنوان شبکه های پیش خورد (Feed Forward) شناخته می شوند زیرا یک سیگنال فقط با یک جهت در لایه ها حرکت می کند. در مقابل ،  RNN ها یک حلقه بازخورد (Feed Back) دارند که در آن خروجی شبکه به همراه ورودی بعدی به شبکه برگردانده می شود. از آنجا که RNN ها فقط یک لایه نورون دارند ، از نظر ساختاری یکی از ساده ترین انواع شبکه ها هستند.

مانند سایر شبکه ها ، RNN ها یک ورودی را دریافت کرده و خروجی تولید می کنند. برخلاف سایر شبکه ها ، ورودی ها و خروجی ها می توانند به صورت توالی باشند. در اینجا برخی از برنامه های نمونه برای سناریوهای ورودی-خروجی مختلف ارائه شده است:

  • ورودی واحد ، دنباله خروجی: نوشتن شرح تصاویر
  • توالی ورودی ، خروجی منفرد: طبقه بندی اسناد
  •  توالی ورودی ها ، دنباله خروجی ها: پردازش فیلم فریم به فریم ، پیش بینی آماری تقاضا در برنامه ریزی زنجیره تأمین

آیا قبلاً از RNN در پروژه های خود استفاده کرده اید؟ اگر چنین است ، لطفاً در مورد تجربه خود نظر دهید و با ما در میان بگذارید.

RNN ها با استفاده از پردازش پس انتشار (Backpropagation) در طول زمان آموزش داده می شوند ، که مسئله محو شدگی گرادیان را مجدداً مطرح می کند. در حقیقت ، مشکل با RNN بدتر است زیرا هر گام زمانی معادل لایه ای در یک شبکه پیش خورد است. بنابراین اگر شبکه برای ۱۰۰۰ مرحله زمان آموزش داده شود ، گرادیان مانند آنچه در یک MLP 1000 لایه وجود دارد محو می شود.

رویکردهای مختلفی برای رفع این مشکل وجود دارد که محبوب ترین آن ها روش راهگاهی (Gating) است. روش راهگاهی، خروجی هر مرحله زمان و ورودی بعدی را می گیرد و قبل از بازگرداندن نتیجه به RNN ، دگرگونی را انجام می دهد. چندین نوع راهگاه وجود دارد که حافظه طولانی کوتاه-مدت (LSTM) محبوب ترین آن ها است. رویکردهای دیگر برای رفع این مشکل شامل برآمدگی گرادیان (Gradiant Clipping) ، دروازه های تندتر (Steeper Gates) و بهینه سازهای بهتر (Better Optimizers) است.

پردازنده های گرافیکی (GPU) یک ابزار اساسی برای آموزش RNN هستند. یک تیم در Indico افزایش سرعت استفاده از یک پردازنده گرافیکی نسبت به یک پردازنده معمولی را مقایسه کرده که ۲۵۰ برابر افزایش یافته اند. این تفاوت بین ۱ روز و بیش از ۸ ماه آموزش است!

یک شبکه بازگشتی یک توانایی دیگر نیز دارد، می تواند مورد بعدی را در یک دنباله پیش بینی کند ، که اساساً به عنوان موتور پیش بینی کننده عمل می کند.

منبع Youtube

همچنین ببینید

ساخت انیمه از ویدیو های واقعی

ساخت انیمه از ویدیو های واقعی !

این مدل هوش مصنوعی به زیبایی می تواند تصاویر و ویدیو های واقعی را به …

4 نظر

  1. با سلام و تشکر بابت سایت خوبتان

    به نظر می رسد که نزدیکی کلیدهای روی صفحه کلید باعث بعضی خطا ها می شود به عنوان مثال در این متن کلمه Gradiant Clipping به دلیل نزدیکی دو کلید e و a به اشتباه تایپ شده.
    لطفا به ترجمه زیرنویس این مجموعه ادامه دهید . بسیار مفید است.

    با سپاس از زحمات شما

  2. من به مدل شبکه عصبی بازگشتی نیاز دارم

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *