مطالعه جدید: هوش مصنوعی در ۸۰ درصد مواقع در تشخیص اولیه بیماریها شکست میخورد
مطالعهای جدید نشان میدهد که اکثر مدلهای زبانی هوش مصنوعی در تشخیص اولیه بیماریها عملکرد خوبی ندارند.
مطالعهای جدید نشان داده است که مدلهای هوش مصنوعی هنوز برای استفاده پزشکی آماده نیستند. در این پژوهش مدلهای زبانی نتوانسته در ۸۰ درصد مواقع تشخیص اولیه مناسبی برای بیماریها داشته باشند. محققان میگویند هوش مصنوعی مولد فاقد قابلیت استدلال مناسب برای استفاده بالینی ایمن است.
محققان بیمارستان Mass General Brigham بوستون دریافتند که چتباتهای هوش مصنوعی در مواجهه با اطلاعات بالینی جامع عملکرد خوبی در تشخیص بیماریها پیدا کردهاند، اما همچنان در تشخیص افتراقی در بیش از ۸۰ درصد مواقع شکست میخورند.
عملکرد ناموفق مدلهای هوش مصنوعی در تشخیص افتراقی بیماریها
پژوهشگران در این مطالعه ۲۱ مدل زبانی بزرگ ازجمله جدیدترین نسخههای جمینای، GPT، گراک، Claude و دیپسیک را آزمایش کردند. آنها این مدلها را از طریق ابزاری موسوم به PrIME-LLM در ۲۹ آزمون بالینی استاندارد تحت ارزیابی قرار دادند. این ابزار تواناییهای مدل را در مراحل مختلف استدلال بالینی بررسی میکند: از تشخیص اولیه و مرتبسازی نتایج آزمایشات گرفته، تا رسیدن به تشخیص نهایی و برنامهریزی برای درمان.

محققان میگویند مدلهای زبانی در رسیدن به تشخیص نهایی دقت بالایی داشتند، اما در تشخیص افتراقی و عبور از تردیدها ضعیف عمل کردند. تشخیص افتراقی مرحلهای حیاتی در تشخیصهای پزشکی است که طی آن متخصصان یک بیماری را شناسایی و آن را از سایر علائم متمایز میکنند.
همه مدلها در بیش از ۸۰ درصد مواقع در تشخیص افتراقی ناموفق عمل میکردند، اما با دریافت اطلاعات جامع، در تشخیص نهایی نرخ موفقیت حدود ۶۰ تا ۹۰ درصدی داشتند. طبق این تحقیق، مدلهای گراک ۴، جیپیتی ۵، جیپیتی ۴.۵، کلود ۴.۵ اوپوس، جمینای ۳ فلش و جمینای ۳ پرو از بقیه بهتر ظاهر شدند.
پژوهشگران یادآور شدهاند که مدلهای عمومی برای استدلال بالینی مهارتهای کافی ندارند و برای این کاربردها باید بهسراغ مدلهای تخصصیتر رفت. بنابراین ضروری است که در صورت استفاده از هوش مصنوعی در امور پزشکی، همچنان انسانها در این فرایند حضور داشته باشند تا نتیجه کار را بررسی کنند.
نتایج این تحقیق در ژورنال JAMA Network Open منتشر شده است.
دیدگاهها و نظرات خود را بنویسید
برای گفتگو با کاربران ثبت نام کنید یا وارد حساب کاربری خود شوید.
به نظرم عنوان و خبر کمی گمراه کننده هست. بله مدل های زبانی و چت بات ها در تشخیص بیماری ها همینقدر میتونن ضعیف عمل کنن ولی باید اینطور باشه، چون به این منظور توسعه داده نشدن. حالا این به این معنیه که " هوش مصنوعی " توی این مسئله ضعیف عمل میکنه و کاربردی نیست. اول باید گفت منظورمون از " هوش مصنوعی " چیه؟!
اگه منظور همین مدل های زبانی و Chatbot ها هست، بله. اما اگه دست بزاریم روی شبکه های عصبی یا مدل های هوش مصنوعی که به همین منظور توسعه داده میشن، میشه دید که دقتشون در تشخیص بیماری ها به مراتب بالاتر از تشخیص انسانی توسط متخصصین پزشکی هست. حتی میشه گفت در آینده نه چندان دور پزشک ها با مدل های هوش مصنوعی جایگزین میشن.
عنوان فراتر از گمراه کننده و یک جورهایی ناامیدکنندست.
ممنون از نظر شما
داخل متن هم این قضیه توضیح داده شده که باید به سراغ مدلهای تخصصی رفت و مدلهای عمومی در این زمینه عملکرد مناسبی ندارن. ولی اون چیزی که الان از هوش مصنوعی به ذهن متبادر میشه همین مدلهای عمومی هستن و کاربرها هم اتفاقاً از همین مدلها برای مشاورههای پزشکی استفاده میکنن.
سلام کوروش و نیما یک خواهش داشتم نمیشه مثل دی بهمن مصاحبه کنید که قطعی اینترنت که تأثیر داره با مدیر عامل ستارت اپ ها؟
ممنون میشم انجام بدید
بستگی داره از کی بپرسی که آیا این نظر اشتباهه یا درسته.
ازخود هوش مصنوعی بپرسی یا از به اصطلاح متخصصین امر که پزشکان هستند. حالا پزشک چه انگیزه ای داره که صادقانه نظر بده؟
محققان بیمارستان Mass General Brigham بوستون چرا باید بگن ماست اونا ترشه؟ اونا طبیعتا میگن ماست ما شیرینه. هوش مصنوعی اخه و بو میده.
I think it is fake research