درس هایی از کرونا !

22 می, 2020 تازه های یادگیری ماشین, تازه ها نظری بدهید

در این مقاله، چهار درس اساسی که محققین علوم داده باید از داده های مربوط به بیماری Covid-19 بگیرند را بررسی خواهیم کرد.

ابزارهای یادگیری ماشین و علوم داده از هر زمان دیگری قابل دسترس تر هستند. اما در کنار یادگیری خود ابزارها، یادآوری چگونگی یافتن داده ها به روشی موثر و یافتن محدودیت های آن ها قبل از اینکه داده ها را در ابزارهای مدل سازی خود بکار ببرید بسیار مهم است.

تعجب خواهید کرد که چقدر مردم بدون بررسی داده ها ، به ساختن مدل ها می پردازند در حالیکه این کار اشتباه است. برای ساختن مدل های مؤثر، باید بدانید که چگونه داده ها جمع آوری شده و در چه نقاطی دارای شکاف هستند. این مسئله به همان اندازه مهم است که شما با چند صد ردیف داده در صفحه گسترده اکسل یا با مجموعه ای از داده های طبقه بندی شده ی تصویری به اندازه ترابایت کار کنید.

هر مجموعه ای از داده های دنیای واقعی مملو از عجایب خواهد بود چرا که داده ها در دنیای واقعی جمع آوری می شوند و دنیای واقعی پر از چیز های عجیب است. این مطلب قطعاً در مورد تمام داده هایی که روزانه در طول اپیدمی COVID-19 گزارش می شود نیز صادق است. جمع آوری روزانه اعدادی از سراسر جهان و دریافت آن ها به شیوه ی درست آن دشوار است بنابراین اعدادی که گزارش شده اند تمام شکاف ها و مسائلی را که در مجموعه داده های جمع آوری شده از دنیای واقعی وجود دارند در داده های مربوط به بیماری COVID-19 نیز باید انتظار داشت که وجود داشته باشند.

بیایید نگاهی به برخی از داده های گزارش شده ی COVID-19 بندازیم و ببینیم که چرا اگر در ابتدا سعی کنیم بدون بررسی و آزمون این داده ها ، مدلی را با استفاده از این داده ها بسازیم مسیر را اشتباهی رفته ایم.

درس اول : نحوه جمع آوری داده ها الگوهای قدرتمندی را در داده ها ایجاد می کند

استاندارد بین المللی برای گزارش داده های مربوط به بیماری COVID-19 برای هر کشوری برای ارسال گزارش روزانه تعداد موارد فوتی رخ داده در بیمارستان ها است.

این امر باعث می شود که نحوه تاثیر گذاری این بیماری در کشورهای مختلف را بتوان مقایسه کرد.

بیایید نگاهی به آمار روزانه گزارش شده توسط انگلستان بیاندازیم :

نمودار — آمار مرگ و میر روزانه در انگلستان

توجه کنید که مرگ و میر های گزارش شده از یک چرخه کامل هفتگی پیروی می کنند. این اعداد در ابتدای هر هفته هر روز یکشنبه و دوشنبه به میزان قابل توجهی افت می کنند. این یک یافته واقعاً جالب است که در مدل می تواند پیامد های عظیمی داشته باشد. شاید در مورد روز هایی که نتایج آمار متفاوت از روز های دیگر می باشد در ارتباط با کارمندان، تجهیزات و یا معالجه بیماران در آن روزها تفاوتی وجود داشته باشد؟

مشکل این است که این چرخه هفتگی ساختگی است. این چرخه محصول دست سازی از نحوه جمع آوری و گزارش داده ها است.

روزی یک بار، هر مرکز درمانی تعداد کل مرگ های خود را به یک مقام مرکزی گزارش می کند. افزایش کلی مرگ و میرهایی که توسط انگلیس گزارش شده است جمع این تعداد منهای مجموع مرگ و میر های حاصل از COVID-19 در روز قبل از اعلام گزارش است.

این مسئله باعث ایجاد دو عارضه جانبی مهم می‌شود:

مجموع تعداد مرگ و میر های یک روز می تواند ناقص باشد (و معمولاً نیز هست). اگر هیچ مرکز پزشکی نتواند تعداد را به موقع گزارش کند یا اصلا نتواند گزارش کند، در نتیجه مرگ و میر های مربوط به آن مراکز از آمار کلی انگلستان مفقود می شود و در صورت وقوع این اتفاق آمار مربوط به این مرکز سرانجام در یک روز در آینده تجمیع می شود.
یک تاخیر یک روزه بین گزارش مرکز درمانی و تجمیع آمار جمع آوری شده از آن مراکز در انگلستان که به عموم مردم گزارش می شود وجود دارد.

توضیحات مربوط به چرخه هفتگی ساده است. همه بیمارستان ها تمام کارکنان خود را در آخر هفته ها در اختیار ندارند، بنابراین ظرفیت مورد نیاز برای این که به موقع آمار های خود در ارتباط با بیماری COVID-19 را بطور کامل گزارش دهند. گزارش آهسته باعث کاهش آمار مرگ و میر در آخر هفته و سپس افزایش آمار مربوطه در ایام بعد از آخر هفته می شود. و به دلیل تأخیر یک روزه در گزارش، این مسئله درداده ها خود را در قالب کاهش آمار مرگ و میر در روزهای یکشنبه و دوشنبه به جای روزهای شنبه و یکشنبه نشان می دهد.

این مسئله ای مشترک با همه ی مجموعه داده ها است؛ نحوه جمع آوری آن ها می تواند الگویی در داده هایی ایجاد کند که حتی از خود داده نیز قوی تر باشد. به عنوان مثال، بسیاری از مجموعه داده های آزاد تصویری موجود توسط دانشجویان در حال تحصیل در مقطع دکتری ایجاد شده اند. بنابراین اگر بخواهید داده های تصادفی از اتومبیل ها را در اینترنت جمع آوری کنید، احتمالاً تصاویر زیادی از اتومبیل های جمع و جور در پارکینگ ها را بدست می آورید و در مقابل تصاویر زیادی از کامیون های بزرگ در دسترس نیست. در حالیکه در ایالات متحده، وانت ها تقریبا ۳ برابر خودرو های دیگر فروش دارند.

درس دوم : در مورد داده های دور افتاده تحقیق کنید

مجموعه داده ها تقریباً همیشه دارای مقادیر دور افتاده (نکات قابل توجهی که خارج از محدوده بقیه داده ها) هستند، اما شما نمی خواهید همیشه آن ها را در تجزیه و تحلیل خود گنجانید. این امر به این دلیل است که داده های دور افتاده می توانند نتیجه یک اشتباه تایپی ساده یا نتیجه یک اتفاق خارق العاده باشد که اتفاق می افتد. مراجعه و بررسی داده های دور افتاده از این جهت حائز اهمیت است که بدانید آیا باید آن ها را در تحلیل خود لحاظ کنید یا این که آن ها را حذف کنید.

در اینجا میزان موارد جدید COVID-19 که توسط چین گزارش شده توسط worldometers.info گزارش شده است:

در ۱۲ فوریه یک مرکز بزرگ وجود دارد که در آن ۱۴۱۰۸ مورد جدید از این بیماری را گزارش می کند. این افزایش روزانه چندین برابر بیشتر از تعداد موارد گزارش شده در هر روز دیگر است.

اگر کورکورانه مدلی را با استفاده از این داده ها بسازید، آن داده ی دور افتاده کل مجموعه را تحت تاثیر قرار می دهد.

برعکس، اگر فرض کنید که داده دور افتاده یک رویداد واقعی را نشان می دهد، ممکن است به اشتباه فکر کنید که اتفاق خاصی در ۱۲ فوریه افتاده که باعث افزایش عفونت ها شده است. قبل از آن تاریخ، چین فقط موارد بیماری را که با آزمایش ویروس مبتنی بر RNA تأیید شده بود را گزارش می کرد. اما به دلیل موانع موجود در آزمایش ها، پزشکان نیز با استفاده از اشعه X قفسه سینه بیماران را غربالگری می کردند تا به دنبال علائم بیماری ریه باشند. در تاریخ ۱۲ فوریه، چین مواردی را که فقط از طریق اشعه ایکس تأیید شده بود را مجدداً گزارش کرد و این باعث به وجود آمدن جهشی بزرگ در موارد گزارش شده شد. همه این موارد در ۱۲ فوریه، دقیقاً وقتی که به تعداد آن ها اضافه شده اتفاق نیفتاده اند.

توضیح این امر به اندازه کافی ساده است که بتوانید با یک جستجو آن را بیابید. با داشتن این اطلاعات، می توانید تصمیم بگیرید که چگونه با داده های دور افتاده برخورد کنید. اما پیش از آن هرگز نمی دانستید که آیا قبل از شروع مدل سازی، به دقت به داده ها نگاه کرده اید یا نه.

درس سوم : نرمال سازی داده های جغرافیایی

یک نکته اساسی که مردم همواره فراموش می کنند این است که داده های جمع آوری شده بر اساس منطقه جغرافیایی هر گاه بر اساس جمعیت آن منطقه یا فاکتور های دیگر نرمال سازی می شوند منطقی تر بنظر می آیند. زیرا گزارشش ۳۰۰ مورد از ابتلا به بیماری در روستایی با جمعیت ۵۰۰ نفره با گزارش همین عدد در یک شهر ۸ میلیون نفری متفاوت است.

به عنوان مثال ، در اینجا نقشه ای با تعداد موارد COVID-19 در هر استان لندن از تاریخ ۸ آوریل ۲۰۲۰ ، با استفاده از آمار ارائه شده توسط دولت ، ارائه شده است:

آمار مرگ و میر انگستان — آمار مرگ و میر در بخش های مختلف لندن

مشکل این است که که بخش های مختلف جغرافیای جمعیت های مختلفی دارند. وقتی مناطقی را روی نقشه فقط برحسب تعداد جمعیت آن ها رنگ می کنید، تقریباً همیشه در حال بازآفرینی یک نقشه جمعیتی هستید.

بر روی این نقشه، کرویدون در انتهای جنوبی شهر به همان رنگی است که Southwark در مرکز شهر قرار دارد. اما Croydon بیست در صد بیشتر از Southwark جمعیت دارد و مساحت بیشتری را در بر می گیرد. اگر هر دو منطقه تعداد موارد مشابه داشته باشند، منطقی نیست که بگوییم هر دو ناحیه به همان اندازه تحت تأثیر قرار می گیرند، زیرا میزان عفونت در کرویدون پایین تر خواهد بود.

راه حل این است که نقشه را توسط یک عامل دیگر، مانند جمعیت ، نرمال سازی کنیم. به سادگی تعداد موارد در هر منطقه را براساس جمعیت آن منطقه تقسیم کنید تا نرخ وقوع را بدست آورید. با استفاده از نرخ وقوع، نقشه قابل درک تری دریافت خواهید کرد که تخمین می زند کدام مناطق به شدت تحت تأثیر قرار می گیرند:

آمار مرگ و میر در لندن — آمار نرمال سازی شده مرگ و میر در لندن

هنگامی که مناطق را براساس جمعیت تقسیم بندی کنید می بینید که کرویدون دارای میزان بروز متوسط است در حالی که Southwark در کنار رودخانه یکی از مناطق با شدت وقوع زیاد است. این تأثیر حتی با نگاهی به داده های سطح ملی در کشورهایی مانند ایالات متحده که جمعیت در آن بسیار نابرابر توزیع می شود، حتی قوی تر است. در ایالات متحده ، تقریباً همه در نزدیکی ساحل شرقی، ساحل غربی یا تگزاس زندگی می کنند. بیشتر مناطق دیگر کشور در مقایسه با آن کم جمعیت هستند. اگر نقشه ای از آمریکا را بدون نرمال سازی داده ها ترسیم کنید احتمالاً در پایان نقشه ای از مناطق مورد سکونت مردم بدست می آورید.

درس چهارم : با نتایج شگفت انگیز خود با سوء ظن و بررسی های چند باره برخورد کنید

مهم نیست که چقدر برای درک داده های خود و ساختن یک مدل دقیق کار کنید، تعداد نامحدودی از روش ها وجود دارد که مدل شما می تواند به وسیله ی یکی از آن ها به طور تصادفی به اشتباه منجر شود. بنابراین اگر داده ها را وارد مدل خود می کنید و نتیجه ای شگفت انگیز یا غیر منتظره به دست می آورید ارزش این را دارد که بیش از حد شکاک باشید و جزئیات مدل خود را به طور کامل بررسی کنید تا ببینید آیا چیزی را از قلم انداخته اید یا نه.

یکی از مدل های به کار گرفته شده جهت گزارش دهی آمار بیماری COVID-19 در ایالات متحده، مدل ساخته شده توسط IHME است.

این مدل مرحله اوج گیری بیماری همه گیر COVID و تعداد کل افراد مبتلا به آن در سیستم مراقبت های بهداشتی را پیش بینی می کند. این مدل برای ایالات متحده تقریباً ۶۰،۰۰۰ مرگ و میر پیش بینی کرده است.

آن ها اخیراً پیش بینی هایی را برای انگلستان نیز انجام داده اند هرچند که این مقدمات بیشتر است. برای انگلستان ، آن ها در حال پیش بینی تعداد ۶۶۰۰۰ کشته شده و یا حتی بیشتر هستند:

این یک پیش بینی واقعاً خارق العاده است. این مدل گفته است که آمریکا با جمعیتی در حدود ۳۳۰ میلیون نفر ، تعداد مرگ و میر کمتر از انگلیس با جمعیت حدود ۶۶ میلیون نفر خواهد داشت (چیزی حدود یک پنجم). با چنین تفاوت بزرگی، به نظر می رسد تا زمانی که مستدل بودن مدل را درک نکنیم باید در درستی ان شک و تردید کنیم.

این شک و تردید هیچ ارتباطی با مهارت تیم ساخت مدل و یا کیفیت کار آن ها ندارد. پیش بینی وقایع نادر با یقین بسیار دشوار است. مدل ها به ما کمک می کنند تا ذهنمان بتواند درک کند که چگونه متغیرهای مختلف ممکن است نتایج را هدایت کنند. اما در حقیقت آن ها فقط مدل هستند. آن ها شبیه سازی نیستند که به آن ها کورکورانه اعتماد کنیم. بنابراین هر وقت یک پیش بینی غیر عادی را می بینید، باید سعی کنید دلیل این اتفاق را بفهمید.

روز های اولیه پس از انتشار این مدل جدید، تعداد واقعی گزارش شده توسط انگلستان از پایین ترین محدوده پیش بینی شده مدل کمتر بود. و در واقع چند روز بعد ، IHME این نمودار را با یک محدوده اطمینان گسترده تر تجدید پیش بینی کرد که نشان دهنده یک پیش بینی بسیار نامطمئن تر است:

IHME لندن — مدل IHME با حوزه اطمینان بیشتر

حتی با وجود دامنه اطمینان جدید، این مدل هنوز هم اعداد بالاتر از سایر مدل های مشابه ایجاد شده توسط تیم های دیگر را پیش بینی می کند. پروفسور نیل فرگوسن از امپریال کالج لندن به مطبوعات گفته است که این مدل برای انگلستان دارای نقص است زیرا به طور نادرستی در حال مدل سازی از نحوه بهره برداری از بیمارستان ها است و مدل او تعداد کمتری را پیش بینی می کند. بنابراین اکنون ما موردی را داریم که دو مدل جداگانه با دو پیش بینی کاملاً متفاوت ارائه می کند.

که البته این مسئله به خودی خود مشکلی ندارد. بررسی مدل های دیگر روش خوبی برای بررسی فرضیات شما و اینکه آیا عواملی وجود دارد که شما در مدل خود در نظر گرفته اید یا خیر می باشد. بدترین کاری که ما می توانیم بکنیم اعتماد کورکورانه به هر مدل خاصی است. هیچ مدلی قادر نخواهد بود همه جزئیات را به طور کامل پوشش دهد.

با همان شک و تردید با مدل های خود رفتار کنید – اگر از نتیجه شگفت زده شدید ، فرض کنید که اشتباه کرده اید تا اینکه بفهمید چرا نتیجه تعجب آوری گرفتید. کورکورانه به مدل خود اعتماد نکنید!