خانه > تازه ها > پایان کار شایعات!
شایعات مدل زبانی متن ساختگی

پایان کار شایعات!

به تازگی هندریک استروبلت و سباستین گهرمن با نظارت الکساندر راش و همکاری دو موسسه دانشگاه هاروارد و ازمایشگاه اِم آی تی،سیستمی را طراحی کرده اند که امروز به معرفی آن می پردازیم.

این سیستم GLTR (مخفف Giant Language Model Test Room)  نام دارد که به بازرسی متونی می پردازد که توسط کامپیوتر به طور خودکار تولید شده اند. در واقع این سیستم نوعی تجزیه و تحلیل را فعال می سازد که قادر به فهم چگونگی تولید یک متن به صورت خودکار توسط کامپیوتر می باشد.

مدل زبانی چیست و چگونه به صورت خودکار متن تولید می کنند؟

 در سال های اخیر،جامعه پردازش زبان طبیعی شاهد افزایش بزرگ و بزرگ تر شدن مدل های زبانی شده اند.

مدل زبانی یک الگوی یادگیری ماشین است که برای پیش بینی کلمه بعدی با توجه به مفهوم ورودی، آموزش داده می شود که به این ترتیب یک مدل می تواند متن را با تولید فقط یک کلمه در هر لحظه تولید کند.افراد نیز گاهی می توانند حتی این پیش بینی ها را براساس ورودی های خود، آن را محدود کنمد تا کنترل متنی را که مدل در حال نوشتن هست را بدست بیاورند. با توجه به قدرت مدل کردن، مدل های زبانی بزرگ توانایی تولید متنی را دارند که برای انسان های غیر متخصص، از متن های دست نویس انسانی غیر قابل تشخیص هستند.

مدل های زبانی با حدس کلماتی که ممکن است در یک زمینه معین بکار گرفته شوند به این توانایی مهم دست می یابند. حال اگر یک سیستم تولید کننده از مدل های زبانی استفاده کند و کلمات بعدی را تقریبا دقیق پیش بینی کند، با وجود این که کامپیوتر دانشی درباره این کلمات ندارد ولی متن تولید شده بسیار شبیه به متنی خواهد بود که یک انسان آن را در شرایط مشابه نوشته بود. این شرایط زمینه را برای افراد سود جو باز می کند تا با استفاده از این ابزار برای مورد توجه واقع شدن در اجتماع اخبار،متون و یا نظرات تقلبی منتشر کنند.

برای جلوگیری از رخ دادن این قبیل اتفاقات ما نیاز داریم تا با استفاده از تکنیک های قانونی این متون خودکار تولید شده را تشخیص دهیم. ما فرض را براین قرار می دهیم که این متون تولید شده با بکارگیری محتمل ترین کلمات در موقعیت های مناسب انسان هارا فریب می دهد ولی در مقابل، نوشتن طبیعی در بیشتر موارد کلمات غیر قابل پیش بینی را برای معنا بخشیدن به ریشه استفاده می کند. این به این معناست که ما می توانیم واقعا تشخیص دهیم که ایا این یک نوشته طبیعی هست یا نه!

 GLTR این امکان را به ما می دهد تا با استفاده از روش قانونی متونی که توسط مدل های زبانی بزرگ تولید شده اند را تشخیص دهیم.

 

 اتاق غول آسای تست مدل زبانی (The Giant Language Model Test Room)

مدل زبانی مثال 1

هدف از سیستم GLTR استفاده از مدل های مشابه با مدل های تولید کننده تقلبی برای تشخیص می باشد.

GLTR به یکی از بزرگترین مدل های عمومی زبان یعنی GPT-2 با ۱۱۷میلیون پارامتر ( وزن ) از OpenAI دسترسی دارد. یعنی می تواند از هر متن ورودی استفاده کرده و بررسی کند که  GPT-2در هر موقعیت چه کلماتی را پیشبینی می کند.

از آنجایی که  خروجی های یک مدل دارای رتبه بنده ای خاص از کلماتیست که مدل با آن ها آشنا است، ما می توانیم چگونه محاسبه کردن این رتبه بندی را مشاهده کنیم. ما از اطلاعات برای پوشش یک ماسک رنگی بر روی متن که مطابق با موقعیت در رتبه بندی است استفاده می کنیم. در رتبه بندی کلمه ای که جزو محتمل ترین کلمات هستند قرار دارد که رتبه بندی نیز به شکل زیر است:

رنگ سبز:۱۰مورد برتر         رنگ قرمز:۱۰۰مورد برتر         رنگ زرد:۱۰۰۰مورد برتر   

بقیه کلمات نیز که در این ۳ دسته قرار ندارند با رنگ بنفش مشخص می شوند. بنابراین می توانیم به صورت مستقیم نشانه بصری از چگونگی احتمال هر کلمه در مدل داشته باشیم.

مدل زبانی متن ساختگی

می توانیم هر متنی را درون ابزار قرار دهیم با این حال در اینجا برای شما مقداری متون اصلی و جعلی را فراهم کرده ایم. دقت کنید که کلمات قرمز و بنفش یعنی پیش بینی های بعید درواقع اگر جلو رفتید و مشاهده کردید قرمز و بنفش زیاد شد به این معناست که متن واقعی تر می باشد.

با بردن نشانگر روی هر کلمه، یک جعبه کوچک ظاهر می شود که در ان ۵ کلمه برتر،احتمالات مرتبط با آن ها و همچنین موقعیت کلمات را نشان می دهد.

مدل زبانی نمایش کلمات

در پایان این ابزار ۳ نمودار متفاوت را نشان می دهد که اطلاعات کل متن را به طور جمع آوری شده تحویل می دهد.

نمودار اول تعداد کلماتی که از هر دسته در متن وجود دارد را نشان می دهد. مورد دوم نسبت بین احتمالات کلمات پیش بینی شده و کلمه ذکر شده در متن را نشان می دهد. آخرین نمودار نیز نحوه توزیع احتمالات هر یک از موارد پیش بینی شده را بررسی می کند. عدم وجود اعتماد کم در هر پیش بینی نشان می دهد که این مدل در بسیاری از موارد قابل اعتماد خواهد بود.

مدل زبانی هیستوگرام

 بررسی مثال ها

اسب های تک شاخ؟

به عنوان نمونه ما یک متن تولید شده معروف درباره اسب های تک شاخ را که توسط مدل GPT-2 تولید شده را مورد بررسی قرار می دهیم. در این متن در واقع جمله اول ورودی ما خواهد بود و بقیه ی متن تولید شده توسط مدل می باشد.این متن بسیار به واقعیت شبیه است و در صورتی که یک انسان شروع به خواندن آن کند هیچوقت متوجه تقلبی بودن این موضوع نخواهد شد.

مدل زبانی تک شاخ

همانطور که در متن زیر می بینید رنگ بنفش فقط در جمله اول و رنگ قرمز به تعداد بسیار کمی در متن پیدا می شود.این درحالی است که کل این متن از رنگ سبز پوشیده شده است،و همانطور که در قبل توضیح دادیم هرچه تعداد رنگ بنفش و قرمز بیشتر باشد این متن به واقعیت نزدیک تر است.

با توجه به نمودار ها می توانیم نشانه های دیگری از ساختگی بودن متن پیدا کنیم. یک نشانه قوی وجود دارد که این مدل احتمال بالایی را به کلمه درست اختصاص داده است و همچنین عدم اطمینان معمولا کم است که نشاندهنده ی سطح پایین غیر پیشبینی بودن مدل است. در نظر داشته باشید ما حتی بدون دسترسی به مدل اصلی هم می توانیم مصنوعی بودن یک متن را تشخیص دهیم. دسترسی به مدل اصلی قدرت تشخیص را افزایش می دهد. سه نمودار متن بالا به صورت زیر است:

مدل زبانی هیستوگرام

متن آزمون سراسری (GRE)

خب حالا می خواهیم یک متن واقعی را که توسط انسان منتشر شده را بررسی کنیم. این متن نمونه از آزمون های سراسری GRE انتخاب شده است. متون این آزمون برای درک مطلب در سطح بالایی نوشته شده اند و به همین دلیل ما توقع داریم درصد بالایی از کلمات پیپیده و غیر قابل پیشبینی را شاهد باشیم.

مدل زبانی آزمون

ما در نمونه بالا می توانیم تعداد زیادی از رنگ های قرمز و بنفش در سراسر متن مشاهده کنیم که همانطور که گفتیم تعداد بالای رنگ قرمز و بنفش نشان دهنده واقعی تر بودن آن می باشد.

متن علمی

برای تست بعدی، یک متن علمی را از این مقاله به GLTR برای بررسی می دهیم.

مدل های زبانی علمی

ابزار به ما قسمت های قرمز و بنفش زیادی را نشان می دهد که تایی می کند این متن توسط یک انسان نوشته شده است. همچنین، نمودار عدم اطمینان به سمت راست متمایل است که شاخص دیگری است.

متون نوشته شده توسط هوش مصنوعی در جهان واقعی

ما می توانیم از این ابزار برای تحلیل متون تولید شده توسط سیستم های دیگر نیز استفاده کنیم. به عنوان مثال، واشینگتن پست از الگوریتم ها برای ارائه گزارش از مراسمات ورزشی و انتخابات ها استفاده می کند. در پایین، ما خروجی  GLTR پس از نشان دادن این متون را آورده ایم.

مدل زبانی هوش مصنوعی

به طرز شگفت انگیزی، تقریبا همه موارد بجز اسامی افزاد سبز و زرد هستند.  حتی با این وجود که ما به مدل اصلی پشت پرده این مطلب دسترسی نداریم، نشانگر رنگی نشان می دهد که این مطلب به صورت اتوماتیک یا نیمه اتوماتیک توسط الگوریتم های هوش مصنوعی نوشته شده است.

به این ترتیب انسان گام دیگری در راه پیشرفت برداشت تا شایعه ها پایان خود را خیلی دور نبینند!!!

با ورود به لینک زیر می توانید از نسخه آزمایشی GLTR استفاده کنید.

نسخه آزمایشی GLTR

بیشتر بخوانید :

منبع GLTR
0/5 ( 0 نظر )

درباره‌ی احمدرضا جعفری

همچنین ببینید

یادگیری عمیق به زبان ساده شبکه باور عمیق

یادگیری عمیق به زبان ساده : شبکه باور عمیق – قسمت هفتم

یک ماشین بولتزمن محدود شده ( RBM ) می تواند ویژگی ها را استخراج کرده …

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *