خانه > تازه ها > آینده نویسه خوان ( OCR )، یادگیری عمیق است
نویسه خوان ocr یادگیری عمیق

آینده نویسه خوان ( OCR )، یادگیری عمیق است

چه در مورد استخراج خودکار اطلاعات از رسید اسکن شده برای گزارش هزینه و یا ترجمه زبان خارجی با استفاده از دوربین تلفن همراه، نویسه خوان ( تشخیص کارکتر نوری ( OCR )) به نظر یک تکنولوژیِ گیج کننده می رسد. و در حالی که داشتن کامپیوتر هایی که می توانند با درجه دقت بالا متن آنالوگ را دیجیتالی کنند به نظر معجزه آسا می آید، واقعیت  این است که دقت آن در واقعیت از آنچه که ما انتظار آن را می کشیم، کمتر می باشد. دلیل آن این است که با وجود ادراک نویسه خوان به عنوان جهش فوق العاده به جلو، در واقع کاملا قدیمی و محدود است و عمدتا به این دلیل که به صورت انحصاری توسط چند شرکت اداره می شود، باعث جلوگیری از نوآوری های بعدی می گردد.

نویسه خوان

چیزیکه هم جدید است، هم قدیمی

زمینه ی اولیه ی نویسه خوان چیزی در حدود ۱۰۰ سال پیش در بیرمنگام انگلستان توسط دانشمند ادموند ادوارد فورنیه دِآلبه ابداع شد. مایل بودن به کمک به افراد نابینا برای خواندن متن باعث شد تا دانشمند ادموند یک دستگاه بسازد، دستگاه OPTOPHONE، که از سنسور های تصویری برای تشخیص چاپ سیاه استفاده می کند و آن را به صدا تبدیل می کند. سپس این صداها می توانند توسط خوانندگان کم بینا به کلمات ترجمه شوند. این پیشرفته کردن دستگاه بسیار پرهزینه بود و فرایند خواندن توسط نابینایان بسیار کند پیش می رفت. در نتیجه این دستگاه انقلابی از نظر تجاری هرگز قابل دوام نبود.

هنگامی که توسعه اضافی تبدیل متن به صدا ادامه یافت؛ در نزدیکی های قرن ۲۰، نویسه خوان ، آن طور که امروزه آن را می شناسیم، زمانی که مخترع و آینده نگر رای کورزویل برنامه کامپیوتر نویسه خوان را در سال ۱۹۷۰ توسعه داد. در سال ۱۹۸۰،کورزویل آن را به XEROX فروخت، کسی که با استفاده از آن به تجارت تبدیل متون کاغذی به متن کامپیوتری ادامه داد. از آن زمان، نویسه خوان به مقدار بسیار کمی تغییر کرده است. اول شما یک سند کاغذی را به عکس تبدیل می کنید، سپس نرم افزار سعی می کند تا حروف را با مجموعه کاراکتر هایی که توسط یک انسان بارگذاری شده است، مطابقت دهد.

و اینچنین، مشکل نویسه خوان اینجا مشخص می شود. بی ثباتی های بی شماری در سند و عکس آن وجود دارد، با این حال نویسه خوان براساس قوانین محدود موجود ساخته شده است  که در نهایت کاربرد واقعی تکنولوژی را محدود می کند. همانطور که  MORPHEUS (شخیصت فیلم ماتریکس) گفت: قدرت و سرعت آن ها هنوز بر جهانی استوار است که بر پایه قوانین ساخته شده است.به همین دلیل، آن ها هیچوقت نمی توانند به قدرت و سرعتی که شما می توانید باشید، برسند.

علاوه براین، سردمداران این تکنولوژی مانع هر گونه نوآوری اضافی در نویسه خوان شده اند، همچنین با شیوه ی کسب و کار چند سنت برای هر صفحه باعث شده است تا سرمایه گذاری میلیارد ها دلار در این زمینه به اندازه ی دستگاه OPTOPHONE سود مند باشد.

 

اما این شیوه در حال تغییر است.

نویسه خوان شیوه قدیمی

نسل بعدی نویسه خوان

اخیرا، نسل جدید مهندسان درحال بازسازی مجدد نویسه خوان هستند به گونه ای که باعث حیرت ادموند ادوارد فورنیر می شود. با ساختن آن با استفاده از یادگیری ماشین بر اساس هوش مصنوعی، این تکنولوژی های جدیدی براساس تطابق کاراکتر های موجود در نرم افزار نویسه خوان هستند که به وسیله قوانین محدود نشده اند. با یادگیری ماشین، الگوریتم هایی که بر روی حجم قابل توجهی از داده ها آموزش می بینند یاد می گیرند که برای خودشان فکر کنند. به جای اینکه به تعداد کاراکتر های مشخصی محدود شوند، این برنامه های جدید نویسه خوان دانش را جمع آوری کرده و می توانند هر تعداد کاراکتر را یاد بگیرند.

یکی از بهترین مثال ها از نویسه خوان امروزی این است؛ نرم افزار نویسه خوان ۳۴ سال قبل توسط گوگل منتشر شده و در سال ۲۰۰۶ به یک منبع باز تبدیل شد.

از آن موقع، جمع درخشان ذهن های نویسه خوان برروی بهتر کردن ثبات این نرم افزار کار کرده اند، و ده ها سال بعد، TESSERACT می تواند متن را در ۱۰۰ زبان مختلف پردازش کند، از جمله زبان هایی که از راست به چپ می نویسند مانند عربی و عبری.

آمازون همچنین یک موتور قدرتمند نویسه خوان بنام TEXTRACT را منتشر کرده است .از طریق خدمات وبسایت آمازون در ماه مِی امسال فعال شده است، این تکنولوژی درحال حاضر شهرتی پیدا کرده است که آن را در بین دقیق ترین موارد تا به امروز قرار می دهد.

پرشیانگار، سامانه‌ی نویسه خوان ( OCR ) قدرتمند است که شما را از در بسیاری از موارد از تایپ مجدد مستندات چاپی بی‌نیاز می‌کند. با استفاده از پرشیانگار می‌توانید در کمتر از چند ثانیه اسناد چاپی‌تان را با دقتی بیش از ٩۵% به متون متناظر تبدیل کنید. برای دریافت اطلاعات بیشتر به صفحه معرفی نویسه خوان فارسی پرشیانگار مراجعه فرمایید. 

این تکنولوژی های در دسترس به طور قطع هزینه های هدر رفته را کاهش و باعث بالا رفتن کیفیت شده است. با این حال، آن ها هنوز لزوما مشکل هایی که بیشتر کاربران نویسه خوان بدنبال رفع بوده اند، را حل نکرده اند.

نویسه خوان شیوه جدید

حرکت به جلو

از مدت ها پیش، سختی ذاتی تشخیص کاراکترها چشم مارا به مدت زیادی روی واقعیت کور کرده است که دیجیتالی کردن ساده هیچوقت هدف نهایی از نویسه خوان نبوده است. ما از نویسه خوان فقط برای دیجیتالی کردن متن های آنالوگ استفاده نمی کنیم. آن چه  که ما می خواهیم برگرداندن متن های آنالوگ به بینش های دیجیتالی است. برای مثال، یک شرکت ممکن است صدها قرار داد بیمه را با هدف نهایی نمایش خطر آب و هوایی اسکن کند. دیجیتالی کردن همه صفحه های قرارداد تنها کمی بیشتر از نمونه های اصلی استفاده دارد.

به همین دلیل خیلی ها به دنبال چیزی فراتر از ماشین های یادگیری و پیاده سازی نوع دیگری از هوش مصنوعی هستند؛ یادگیری عمیق. دریادگیری عمیق، یک شبکه عصبی از کارایی مغز انسان تقلید می کند تا به الگوریتم ها این اطمینان را بدهد که آن ها نباید برای تست دقت به الگو های تاریخی و قدیمی تکیه کنند. آن ها این کار را خودشان انجام می دهند. مزایای آن این است که، با یادگیری عمیق، تکنولوژی کاری بیشتر از تشخیص متن انجام می دهد؛ حتی می تواند مفهوم و معنی آن را نیز استخراج کند.

شرکت ها با استفاده از توسعه نویسه خوان یادگیری عمیق، از اسکن قرارداد های بیمه اطلاعات بیشتری به غیر از نسخه دیجیتالی صفحه ها دریافت می کنند. آن ها در اسناد به دید فوری نسبت به معنای متن دسترسی پیدا می کنند. و می توانند قفل میلیارد ها دلار ثروت را باز کنند و باعث صرفه جویی در زمان بشوند.

نویسه خوان درک مطلب

اضافه کردن درک به شناسایی

نویسه خوان بالاخره دارد از فقط دیدن و مطابقت دادن عبور می کند. با استفاده از توسط یادگیری عمیق، وارد مرحله جدیدی می شود که ابتدا اسکن متن را تشخیص می دهد و سپس معنی آن را دریافت می کند. زمینه رقابتی به نرم افزاری داده می شود که قدرتمند ترین استخراج اطلاعات و کیفیت بالای درک مفهوم را فراهم می کند. و ازآنجایی که هر نوع از کسب و کار اسناد، ساختار و ملاحظات مخصوص خودرا دارد، این امکان برای چندین شرکت وجود دارد که براساس شایستگی های مشترک به موفقیت می رسند.

کاربران قدیمی خدمات نویسه خوان باید مجوز های سابق و شرایط پرداخت را دوباره ارزیابی کنند. آن ها همچنین می توانند سرویس های رایگان مانند TEXTRACT آمازون یا TESSERACT گوگل را امتحان کنند و آخرین پیشرفت های نویسه خوان را مشاهده کنند و تعیین کنند که آیا آن ها با اهداف نهایی خود متناسب هستند یا خیر.این همچنین برای محدوده مستقل فراهم کنندگان در فضای مجازی و هوش مصنوعی  که برای صنعت گام برمی دارند، حائز اهمیت است.

و در ۵ سال، انتظار داریم آنچه که در ۳۰سال – یا شاید ۱۰۰ سال – گذشته نسبتا متوقف بوده، به طور کامل غیر قابل تشخیص باشد.

بیشتر بخوانید :

منبع Forbes
5/5 ( 1 نظر )

درباره‌ی احمدرضا جعفری

همچنین ببینید

چرخه هایپ کارتنر هوش مصنوعی سال 2019

اخبار جدید هوش مصنوعی در چرخه هایپ گارتنر ۲۰۱۹

تفسیر بزرگنمایی های تکنولوژی هنگامی که فناوری های جدید وعده هایی جسورانه می دهند، چگونه …

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *