AlphaGo

6 نوامبر, 2019 تازه های هوش مصنوعی, تازه ها یک نظر

AlphaGo اولین برنامه رایانه ای است که می تواند یک بازیکن حرفه ای Go را شکست دهد و اولین بازیکنی است که توانست در مقابل قهرمان جهانی Go پیروز شود ، و مطمئناً قوی ترین بازیکن Go در تاریخ است.

همچنین ببینید:

Alphazero : دریچه ی جدیدی را بر دنیای شطرنج ، شوگی ( Shogi ) و Go گشود.

چالش

Go به دلیل پیچیدگی ، به عنوان چالش برانگیزترین بازی کلاسیک برای هوش مصنوعی شناخته شده است.
با وجود چندین دهه کار ، قوی ترین برنامه های رایانه ای Go فقط می توانند در سطح آماتور انسانی بازی کنند. روشهای استاندارد هوش مصنوعی ، که تمام حرکتها و موقعیتهای ممکن را با استفاده از یک درخت جستجو آزمایش می کنند ، نمی توانند تعداد قابل توجهی از حرکتهای Go را انجام دهند یا قدرت هر یک از موقعیتهای ممکن صفحه را ارزیابی کنند.

Go چیست ؟

Go بیش از ۳۰۰۰ سال پیش در چین سرچشمه گرفت. برنده شدن در این بازی تخته ای نیازمند چندین لایه تفکر استراتژیک است.
دو بازیکن ، با استفاده از سنگ های سفید یا سیاه ، به نوبت سنگ های خود را روی یک تخته قرار می دهند. هدف این است که سنگهای حریف خود را محاصره و اسیر کنید یا فضایی از لحاظ استراتژیک ایجاد کنید. هنگامی که تمام حرکات ممکن انجام شد ، هر دو سنگ روی تخته و تعداد نقاط خالی شمرده می شوند. بیشترین تعداد برنده است.
همانقدر که قوانین آن ساده به نظر می رسد ، Go پیچیده است. تعداد حیرت انگیز ده انتخاب که این امر باعث می شود بازی Go بسیار پیچیده تر از شطرنج باشد.

رویکرد ما

برای فهمیدن جنبه بصری بازی ، ما نیاز به یک رویکرد جدید داشتیم.
ما AlphaGo را ایجاد کردیم ، یک برنامه کامپیوتری که درخت جستجوی پیشرفته را با شبکه های عصبی عمیق ترکیب می کند. این شبکه های عصبی توصیفی از تخته Go را به عنوان ورودی ارائه می دهند و آن را از طریق تعدادی از لایه های مختلف شبکه که حاوی میلیون ها اتصالات شبیه نورون است پردازش می کنند.
یک شبکه عصبی ، “شبکه policy” ، حرکت بعدی را برای بازی انتخاب می کند. شبکه عصبی دیگر ، “شبکه value” ، برنده بازی را پیش بینی می کند. ما AlphaGo را به بازی های آماتور متعددی تعمیم دادیم تا به آن کمک کنیم تا درک بازی معقول انسانی را توسعه دهد. سپس ما مجبور شدیم هزاران بار در برابر نسخه های مختلف خود بازی کنیم ، هر بار از اشتباهات آن درس می گرفتیم.
با گذشت زمان ، AlphaGo در یادگیری و تصمیم گیری به طور فزاینده ای قوی تر و بهتر شد. این فرایند به عنوان یادگیری تقویت کننده شناخته می شود. AlphaGo در ادامه رقابت خود قهرمانان جهان Go در عرصه های مختلف جهانی را شکست داد و به طور حتم بزرگترین بازیکن Go در تمام دوران شد.

ما تصور کردیم که AlphaGo مبتنی بر محاسبه احتمال و صرفاً یک ماشین است. اما وقتی این حرکت را مشاهده کردیم ، مجبور به تجدید نظر شدیم . مطمئناً ، AlphaGo خلاق است.

مسابقات

در اکتبر ۲۰۱۵ ، AlphaGo اولین مسابقه خود را در برابر قهرمان سه دوره ی اروپا ، آقای فن هوی انجام داد. AlphaGo در اولین بازی در برابر یک حرفه ای Goقرار گرفت و او را با نتیجه ۵-۰ شکست داد

AlphaGo سپس در برابر بازیکن افسانه ای Go آقای لی Sedol ، برنده ۱۸ عنوان جهانی ، که به طور گسترده بزرگترین بازیکن دهه گذشته محسوب می شد ، به رقابت پرداخت. پیروزی ۴-۱ آلفا در سئول کره جنوبی در مارس ۲۰۱۶ توسط بیش از ۲۰۰ میلیون نفر در سراسر جهان مشاهده شد

اختراع حرکات برنده

این بازی AlphaGo را در رده بندی حرفه ای دان ۹ ، که بالاترین گواهینامه محسوب میشد را قرار داد. این اولین باری بود که یک بازیکن رایانه ای Go توانسته بود آن جایزه را دریافت کند . در طول بازی ها ، AlphaGo چندین حرکت ابداعی را انجام داد که چندین مورد آن – از جمله حرکت ۳۷ در بازی دو – آنقدر تعجب آور بودند که صدها سال مرز های دانش را بالا بردند. همه بازیکنان Goاز آن زمان تاکنون تمام سطوح آن بازی را بطور گسترده ای بررسی می کنند.

بازی master آنلاین

در ژانویه سال ۲۰۱۷ ، یک نسخه آنلاین بهبود یافته از AlphaGo به نام Master را منتشر کردیم. این بازیکن آنلاین به ۶۰ برد مستقیم در بازی های کنترل زمان در برابر بازیکنان برتر بین المللی دست یافت.

اجلاس چین

چهار ماه بعد ، AlphaGo در اجلاس آینده Go در چین ، زادگاه Go، شرکت کرد. این جشنواره پنج روزه فرصتی را برای کشف اسرار Go با توجه به روحیه همکاری متقابل با بازیکنان برتر کشور قرار داده است. این اجلاس برای کمک به حرکات استراتژیک طراحی شده است . این قالب شامل مدل های مختلف بازی مانند pair Go ، team Go و مسابقه ای با بازیکن شماره یک جهان کی جی بود.

AlphaGo Zero: شروع از ابتدا

پس از اجلاس ، ما AlphaGo Zero را منتشر کردیم. در حالی که AlphaGo بازی را با انجام هزاران مسابقه با بازیکنان آماتور و حرفه ای آموخت ، AlphaGo Zero با بازی مقابل خود ، بازی به صورت کاملاً تصادفی، موارد زیادی را یاد گرفت.
این تکنیک قدرتمند دیگر محدود به مرز دانش بشر نیست. در عوض ، برنامه رایانه ای طی هزار روز و فقط هزار روز دانش بشری را آموخت و یاد گرفت که بازی Go را از قوی ترین بازیکن جهان یعنی AlphaGo ببرد
AlphaGo به سرعت از همه نسخه های قبلی پیشی گرفت و همچنین دانش جدیدی را کشف کرد ، استراتژی های غیر متعارف و حرکات خلاقانه جدیدی را ایجاد کرد . از جمله موارد شگفت انگیزی که به آن میتوان اشاره کرد برنده شدن در مقابل قهرمانان مسابقات جهانی Go Lee Sedol و Ke Jie خواهد بود. این لحظات بدیع به ما اطمینان می دهد که هوش مصنوعی می تواند به عنوان یک شک مثبت برای نبوغ انسان مورد استفاده قرار گیرد.

AlphaZero : مراحل بعدی

در اواخر سال ۲۰۱۷ ، AlphaZero را به این صورت معرفی کردیم که یک سیستم واحد، خودش را از ابتدا آموزش می دهد که چگونه به افزایش تسلط خود بر بازی های شطرنج ، shogi و Go بیفزاید و در هر مورد نیز یک مسابقه با قهرمان جهان برگزار کند و در آن مقتدرانه پیروز شود.
AlphaZero یک رویکرد کاملاً متفاوت را اتخاذ می کند ، و قواعد دستکاری شده را با یک شبکه عصبی عمیق و الگوریتم هایی جایگزین می کند که چیزی فراتر از قوانین اساسی نمی دانستند. پاسخ بدیع و توانایی آن برای تسلط بر این سه بازی پیچیده ، نشان می دهد که یک الگوریتم واحد می تواند یاد بگیرد که چگونه دانش جدید را در طیف وسیعی از تنظیمات ، و بطور بالقوه ارتقا دهد و در هر بازی اطلاعات جدیدی کشف کند.
در حالی که هنوز روزهای آغازین است ، نتایج دلگرم کننده AlphaZero گامی مهم در جهت مأموریت ما در ایجاد سیستم های یادگیری عمومی است که می تواند به ما در یافتن راه حل هایی برای برخی از مهمترین و پیچیده ترین مشکلات علمی کمک کند.