یک رویکرد جدید برای تطبیق تصاویر و متن

novin 
  بازدید : 216
يکشنبه 11 خرداد 1399 زمان : 12:55 


1
2
3
4
5

محققان دانشگاه لیدن و دانشگاه ملی فناوری دفاعی (NUDT) ، در چین ، اخیراً رویکرد جدیدی را برای تطبیق متن متن با نام CycleMatch ایجاد کرده اند. رویکرد آنها ، که در مقاله ای منتشر شده در ژورنال تشخیص الگوی Elsevier ، مبتنی بر یادگیری سازگار با چرخه است ، روشی است که گاهی برای آموزش شبکه های عصبی مصنوعی در کارهای ترجمه تصویر به تصویر استفاده می شود. ایده کلی در مورد ثبات چرخه این است که هنگام تبدیل داده های منبع به داده های هدف و برعکس ، بالاخره باید نمونه های منبع اصلی را بدست آورید.

وقتی صحبت از ابزارهای هوش مصنوعی کارکرد پمپ وکیوم (AI) می شود که در کارهای چند مودال یا چند رسانه ای عملکرد خوبی دارند ، پیدا کردن راه هایی برای ایجاد تصاویر و نمایش تصاویر متن از اهمیت بسیار بالایی برخوردار است. مطالعات گذشته سعی در دستیابی به این هدف با کشف معانی و یا ویژگیهای مرتبط با دید و زبان دارند.

هنگام آموزش الگوریتم های مربوط به همبستگی بین روش های مختلف ، با این حال ، این مطالعات غالباً از پرداختن به قوام معنایی درون مودال غفلت کرده یا نتوانسته اند ، که این قوام معنایی برای معیارهای فردی (یعنی بینایی و زبان) است. برای برطرف کردن این کاستی ، تیم محققان دانشگاه لیدن و NUDT رویکردی را ارائه می دهند که تعبیه های متناسب با چرخه را در یک شبکه عصبی عمیق برای تطبیق بازنمایی های تصویری و متنی اعمال می کند.

محققان در مقاله خود نوشتند: "رویکرد ما ، به نام CycleMatch ، می تواند همبستگی بین مدولار و همگرایی درون مودال را با نقشه برداری دوتایی و نقشه برداری های بازسازی شده به روشی چرخه ای حفظ کند." "علاوه بر این ، برای دستیابی به یک استنتاج قوی ، ما پیشنهاد می کنیم از دو رویکرد دیررس همجوشی استفاده کنیم: همجوشی متوسط و همجوشی سازگار."

رویکرد ابداع شده توسط محققان ، سه ویژگی تعبیه شده (تعبیه دوگانه ، بازسازی شده و نهفته) با یک شبکه عصبی را برای تطبیق متن با تصویر ادغام می کند. این روش دارای دو شاخه چرخه است ، یکی شروع از یک ویژگی تصویر در فضای بصری و دیگری از یک ویژگی متن در فضای متن.

برای هر یک از این چرخه ها ، رویکرد آنها به یک نقشه برداری دوگانه می انجامد ، و یک ویژگی ورودی را در فضای منبع به یک تعبیه دوگانه در فضای هدف تبدیل می کند. محققان سپس نقشه های بازسازی شده را اعمال می كنند ، سعی می كنند این تعبیه دوگانه را به فضای مبدأ برگردانده شود.

رویکرد آنها همچنین به محققان اجازه می دهد تا در هر دو نقشه برداری دوتایی و بازسازی شده ، یک فضای پنهان را بدست آورند و متعاقباً با تعبیه های نهفته ارتباط داشته باشند. بر خلاف سایر تکنیک ها برای تطبیق متن با متن ، بنابراین ، روش آنها می تواند هر دو نگاشت بین مدول (یعنی تصویر به متن و متن به تصویر) و نگاشت های درون مودال (تصویر به تصویر و متن به) را بیاموزد. -متن)

برای ارزیابی رویکرد آنها ، محققان با استفاده از دو مجموعه داده مشهور چند مودم ، Flickr30K و MSCOCO ، یک سری آزمایش را انجام دادند. روش آنها به نتایج پیشرفته ای از هنر دست یافته و از روشهای سنتی بهتر عمل کرده و منجر به پیشرفتهای چشمگیر در بازیابی متقابل شده است.

این یافته ها نشان می دهد که جابجایی های سازگار با چرخه می تواند عملکرد شبکه های عصبی را در کارهای چند حالته ، مانند تطبیق تصویر با متن ، تقویت کند ، و به آنها امکان می دهد تا هم نقشه نویسی بین مدولار و هم درون مودال را بدست آورند. محققان در کارهای آینده خود قصد دارند با در نظر گرفتن روابط محلی در تطبیق تصاویر و متن ، رویکرد خود را بیشتر توسعه دهند (به عنوان مثال ارتباط معنایی بین مناطق بصری و عبارات).

نام کاربری :
رمز عبور :
تکرار رمز عبور :
ایمیل :
نام و نام خانوادگی :
کد امنیتی :