جدیدترین الگوریتم بینایی MIT تصاویر را تا دقت یک پیکسل آنالیز میکند [تماشا کنید]
محققان دانشگاه MIT با همکاری تیمی از دانشگاه کرنل و مایکروسافت الگوریتم بینایی با نام STEGO توسعه دادهاند که میتواند تصاویر را تا دقت یک پیکسل آنالیز کند. برای انسانها، شناسایی اقلام و اجسام در ...
محققان دانشگاه MIT با همکاری تیمی از دانشگاه کرنل و مایکروسافت الگوریتم بینایی با نام STEGO توسعه دادهاند که میتواند تصاویر را تا دقت یک پیکسل آنالیز کند.
برای انسانها، شناسایی اقلام و اجسام در یک صحنه به سادگی نگاه کردن به آنهاست. اما برای هوش مصنوعی و الگوریتم بینایی، داشتن درک بالا از محیط اطراف تلاش بیشتری میطلبد. بدین ترتیب، محققان دانشگاه MIT حدود 800 ساعت صرف کردهاند تا میزان دقت الگوریتم بینایی را افزایش دهند. این تیم که با گروهی از دانشمندان دانشگاه «کرنل» و «مایکروسافت» همکاری داشتند، الگوریتم «STEGO» را توسعه دادند که میتواند تصاویر را تا دقت یک پیسکل آنالیز میکند.
پیش از این، الگوریتمهای طراحی شده قادر بودند اجسام را به صورت کلی از یکدیگر تمیز دهند. به عنوان مثال، یک سگ در کنار یک جعبه کشیده میشد که در یک زمین چمن نشسته است. هوش مصنوعی قادر بود با برچسبگذاری روی سگ، جعبه و چمن، سگ را از چمن تشخیص دهد. اما STEGO که مخفف «Self-supervised Transformer with Energy-based Graph Optimization» میباشد، به روش دیگری کار میکند. این الگوریتم بینایی از تکنیکی به نام «تقسیمبندی» استفاده میکند. در این روش برچسبها دستهبندی میشوند و به هر پیکسل در تصویر یک برچسب تعلق میگیرد. همین امر سبب میشود تا هوش مصنوعی دید دقیقتری از جهان اطراف خود داشته باشد.
نکته قابل توجه دیگر در مورد این الگوریتم، تشخیص آن در برچسبگذاری است. هنگامی که سگ، جعبه و چمن در کنار یکدیگر قرار میگیرند، این الگوریتم قادر است پیکسلهای هر جسم را به صورت جداگانه برچسبگذاری کند. به عبارت دیگر، اجسام در این روش دارای برچسبهای گوناگون هستند و هنگام تقاضای این پیکسلها، به عنوان مثال تنها پیکسلهای سگ را دریافت میکنیم – نه پیکسلهای سگ و جعبه.
مشکل این تکنیک، دامنه آن است. در روشهای مشابه برای یاد دادن به الگوریتم نیاز به حدود هزاران – یا صدها هزار – تصویر برچسبگذاری شده است تا هوش مصنوعی بتواند براساس آنها کار تشخیص خود را انجام دهد. اما در این روش که مبتنی بر پیکسلهای هر تصویر است، قطعا نمیتوان از تصاویر برای آموزش دادن به الگوریتم استفاده کرد.
تیم تحقیقاتی این الگوریتم بینایی در یک بیانیه مطبوعاتی نوشت: « STEGO به دنبال اشیا مشابه میگردد که در یک مجموعه داده ظاهر میشوند. سپس این اشیا مشابه را به هم مرتبط میکند تا از مقایسه با تمام تصاویری که از آنها دیده است، آموزش ببیند. سپس این آموزش را برای هر پیکسل در تصویر به کار گیرد.» ویدئو تشخیص تصاویر این الگوریتم را در زیر میبینید.
STEGO در طیف گستردهای از حوزهها آموزش دیده است – از فضای داخلی خانه گرفته تا عکسهای هوایی در ارتفاعات زیاد. STEGO همچنین در کمک به خودروهای بدون راننده کارایی بسیاری دارد زیرا افراد، علائم و موقعیتهای مختلف را با وضوح بالا و جزئیات تکمیلی رصد میکند.
این الگوریتم بینایی محدودیتهایی نیز دارد. به عنوان مثال، میتواند پاستا و بلغور را به عنوان مواد غذایی تشخیص دهد اما نمیتواند آنها را از یکدیگر تمیز دهد. در تصاویر عجیب، به عنوان مثال قرار گرفتن یک موز روی تلفن نیز گیج میشود و نمیتواند آنها را به درستی تشخیص دهد. تیم محققان امیدوار است با انجام مطالعات بیشتر موانع مذکور را برداشته و به سیستم اجازه دهد اشیا را در دستههای مختلف شناسایی کند.
برای گفتگو با کاربران ثبت نام کنید یا وارد حساب کاربری خود شوید.