-
Notifications
You must be signed in to change notification settings - Fork 0
/
chapter6.tex
33 lines (23 loc) · 8.6 KB
/
chapter6.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
\chapter{جمعبندي و نتيجهگيري و پیشنهادات}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\section{جمعبندی و نتیجهگیری}
امروزه با گسترش فعالیتهای انسان در زمینهی توسعه و پیادهسازی نرمافزارهای استفاده جمعی و شبکههای اجتماعی جهش بزرگی در راستای دسترسی به پایگاهدادهای عظیم از تصاویر صورت گرفته است. این جهش اطلاعاتی محققان هوش مصنوعی را برآن داشته است تا از این دادههای عظیم در راستای پیادهسازی و کاربردی کردن روشهای نوین هوشمصنوعی برآیند. از جمله روشهای نوین پیادهسازی شده در دنیای واقعی میتوان به سامانههای خودکار پرسش و پاسخ و پشتیبانی، عینک هوشمند برای افراد نابینا، ویلچرهای هوشمند، ماشینهای خودران و دستیارهای صوتی هوشمند اشاره کرد. این کاربردها در قالب بستههای نرمافزاری و سختافزاری فراهم شده اند که از میان آنها میتوان اسکایویژن\footnote{\lr{SkyVision}} (تشخیص سرطان پوست)، گوگل فوتوز\footnote{\lr{Google Photos}}، اتومبیلهای تسلا\footnote{ \lr{Tesla Motors}}، اتومبیلهای گوگل\footnote{\lr{Google Self Drive Cars}}، سامانههای تشخیص پوشش گیاهی با استفاده از تصاویر ماهوارهای و ... اشاره داشت.
در سالهای اخیر موضوع تولید خودکار شرح بر تصاویر یکی از داغترین موضوعات هوش مصنوعی بوده است. اولین و مهمترین کاربرد مسالهی تولید خودکار شرح بر تصاویر مدیریت هوشمند تصاویر است. سامانه هایی که علاوه بر مدیریت ذخیره و
بازیابی تصاویر، قدرت دسته بندي خودکار، جستجوي محتوایی، درك و توصیف تصاویر از هر موضوعی باشند و ارائه مدل هاي هوشمند که بتوانند به طور خودکار براي هر تصویري، توصیف متناظر در قالب جملات زبان طبیعی تولید کنند، از جمله مهم ترین اقدامات در راستاي رسیدن به سامانه مدیریت تصاویر به شمار می رود (اسدی، 1396).
در همین راستا، از سال 2015 پرسش و پاسخ بصری به یکی از مهمترین چالشهای حوزهی درک تصویر و پردازش زبان طبیعی تبدیل شد. با وجود شباهتهای بسیاری که میان پرسش و پاسخ بصری و تولید خودکار شرح بر تصاویر است، این دو زمینه از جهات اساسی با هم متفاوت هستند:
\begin{itemize}
\item پرسشهای طراحی شده بهصورت کاملا انتخابی\footnote{\lr{Selective}} بوده و قابلیت درک تصویر مدل را از جهات مختلف (برای مثال توجه به اشیای موجود در پسزمینه) مورد آزمایش قرار میدهد.
\item استدلال موردنیاز برای پاسخگویی به بخشی از سوالات نیاز به برخورداری از حس عام\footnote{\lr{Common-sense Reasoning}} و استدلال ترکیبی\footnote{\lr{Compositional Reasoning}} دارد. بررسی این امر در پرسش و پاسخ بصری با وجود مجموعهدادههای نظیر کلور\footnote{\lr{CLEVR Dataset}} بسیار آسانتر شده است.
\end{itemize}
هدف از طراحی و توسعهی کتابخانهی پرسش و پاسخ بصری فراهم آوردن مجموعه ابزار مورد نیاز برای محققین و توسعهدهندگان حوزهی بینایی ماشین و پردازش زبان طبیعی جهت تسریع پیادهسازی مدلهای ایشان است. این کتابخانه با دسترسی ابزار سطج پایین کتابخانهی پایتورچ، کلاسهای مدیریت مجموعهداده \lr{VQA-V2} راه حلی آسان را برای آموزش، ارزیابی و تست مدلهای پرسش و پاسخ بصری فراهم میکند. با حذف سربار پیادهسازی صفر تا صد یک سیستم پرسش و پاسخ بصری، توسعهدهنده هوش مصنوعی میتواند بر نکات و چالشهای مهمتر مرتبط با هوش (و نه نرمافزار) تمرکز کند.
بهطورکلی میتوان کتابخانهی پیادهسازی شده را به دو بخش اصلی تقسیم کرد. بخش اول این کتابخانه در واقع مربوط به طراحی، پیادهسازی نرمافزاری کتابخانه میباشد. بخش دیگر که از آن با نام انبار مدل یاد میشود، مجموعهای از روشهای نوین در پرسش و پاسخ بصری است که بهمراه کتابخانه در اختیار کاربر (محقق) قرار میگیرد. چالش اساسی در پیادهسازی نرمافزاری نحوهی ارتباط کلاسهای پیادهسازی شده جهت افزایش توسعهپذیری\footnote{\lr{Extensiblity}} و انعطاف نرمافزاری\footnote{\lr{Flexbility}} کتابخانه است. نکتهی مهم دیگر در طراحی بحث استفادهی آسان از کتابخانه است که با رعایت دستورالعملهای موجود در \cite{pressman2005software} تا حد زیادی بدست آمده است. در موجودیتهای پیادهسازی شده در این کتابخانه، قابلیتهایی نظیر بستههای پیشپردازش متن و تصویر، بستهی آموزش و ارزیابی مدلها، بستهی نظارت بلادرنگ، بستهی مدیریت مجموعهداده، بستهی صحتسنجی و بستهی شبکههای آموزشدیده کانولوشنی فراهم شده است. با عبور از بحث پیادهسازی و طراحی نرمافزاری میتوان بر جزییات پیادهسازی مدلهای پرسش و پاسخ بصری تمرکز نمود. این مدلها اغلب بر پایهی ویژگیهای مشترک پیادهسازی شده اند. مهمترین مدل پیادهسازی شده مدل مبتنی بر مکانیزم توجه بصری پلکانی است که جزییات پیادهسازی آن در فصل قبل بررسی شد.
\section{کارهای آینده}
ممارست\footnote{\lr{Consistency}} در نگهداری از یک کتابخانهی نرمافزاری همواره یکی از مهمترین علتهای موفقیت و محبوبیت آن بوده است. کتابخانهی مذکور در این پایاننامه با نام \lr{Hexia} در پلتفرم متن باز گیتهاب منتشر شده است. آنچه که در نسخههای آتی این کتابخانه پیادهسازی خواهد شد، هر دو بخش رابط نرمافزاری و انبارمدل را هدف قرار میدهد. در حال حاضر روشهایی نظیر \cite{shah2019cycle}، \cite{ben2019block} و \cite{zhou2019dynamic} ارائه شدهاند و در انبار مدل کتابخانه وجود ندارند. بهطور کلی میتوان قدمهای آتی را اینگونه بیان کرد:
\begin{itemize}
\item پیادهسازی مدلهای نوین در انبار مدل
\item پیادهسازی کلاسهای مدیریت مجموعهدادههای \lr{TextVQA}, \lr{CLEVR} و ...
\item پیادهسازی قابلیت آموزش همزمان روی چند مجموعهداده
\item پیادهسازی قابلیت آموزش پراکنده\footnote{\lr{Distributed Training}} با استفاده از متدهای \lr{DataParallel}
در پایتورچ
\item اضافهکردن قابلیت انتخاب و پیادهسازی تابع خطا و دقت و سامانهی تولید گزارش در قالب پیدیاف
\end{itemize}