یادگیری عمیق به زبان ساده : یک مشکل قدیمی – قسمت پنجم

2 سپتامبر, 2019 یادگیری عمیق, مقالات آموزشی, ویدئو ها, یادگیری عمیق به زبان ساده یک نظر

اگر شبکه های عصبی عمیق بسیار قدرتمند هستند، چرا آن ها بیشتر مورد استفاده قرار نمی گیرند؟ علت آن این است که به دلیل موضوعی که به عنوان محو شدگی گرادیان شناخته می شود، آموزش آن ها بسیار مشکل است.

برای آموزش شبکه عصبی بر روی مجموعه بزرگی از داده های دارای برچسب ، باید پیوسته تفاوت بین خروجی پیش بینی شده شبکه و خروجی واقعی را محاسبه کنید. این تفاوت هزینه نامیده می شود و فرآیند آموزش یک شبکه به عنوان پس انتشار یا Back Propagation ( به طور خلاصه Back Prop ) شناخته می شود. در طول پس انتشار، وزن ها و بایاس ها کمی تغییر می کنند تا کمترین هزینه ممکن حاصل شود. یکی از جنبه های مهم این فرآیند گرادیان است، یک مقدار که نشان می دهد چقدر هزینه با توجه به تغییر در وزن یا بایاس تغییر می کند.

پس انتشار از یک مشکل اساسی رنج می برد که به عنوان محو شدگی گرادیان شناخته می شود. در طول آموزش ، گرادیان در بازگشت در مسیر شبکه کاهش می یابد. از آنجا که مقادیر گرادیان بالا تر منجر به آموزش سریع تر می شود ، لایه های نزدیک به لایه ورودی طولانی ترین زمان را برای آموزش می گیرند. متأسفانه ، این لایه های اولیه وظیفه تشخیص الگوهای ساده در داده ها را دارند ، در حالی که لایه های بعدی به ترکیب الگوهای ساده با الگوهای پیچیده کمک می کنند. بدون تشخیص صحیح الگوهای ساده ، یک شبکه عمیق از بلوک های سازنده لازم برای رسیدگی به پیچیدگی برخوردار نخواهد بود. این مشکل معادل تلاش برای ساختن خانه بدون پایه و اساس مناسب است.

آیا تا به حال در هنگام استفاده از پس انتشار این مشکل را داشته اید؟ لطفا نظر دهید و مشکلات خود را به اطلاع ما برسانید.

بنابراین چه عواملی باعث کاهش گرادیان در مسیر شبکه می شود؟ همانطور که از نام آن مشخص است، پس انتشار ابتدا باید گرادیان را در لایه خروجی محاسبه کند ، سپس به سمت عقب در سراسر شبکه تا اولین لایه پنهان حرکت کند. هر بار که گرادیان محاسبه می شود، شبکه باید حاصل ضرب همه گرادیان های قبلی را تا آن نقطه محاسبه کند. از آنجا که همه گرادیان ها اعداد کسری بین ۰ تا ۱ هستند – و حاصل ضرب اعداد کسری در این محدوده، کسر کمتری را به دنبال دارد – گرادیان همچنان به کوچک شدن ادامه می دهد.

به عنوان مثال ، اگر دو گرادیان اول یک چهارم و یک سوم باشند ، گرادیان بعدی یک چهارمِ یک سوم خواهد بود، که یک دوازدهم می شود. گرادیان بعدی می تواند یک دوازدهمِ یک چهارم باشد که یک چهل و هشتم می شود و… . از آنجا که لایه های نزدیک به لایه ورودی ، کوچکترین گرادیان را دریافت می کنند ، شبکه زمان زیادی برای آموزش دارد. به عنوان پیامد آن، دقت کلی کاهش می یابد.

منبع Youtube