آیا چتباتهای مبتنی بر هوش مصنوعی واقعاً میتوانند بیماریها را تشخیص بدهند؟
استفادهٔ عمومی از ابزارهای چت مبتنی بر هوش مصنوعی برای دریافت مشاورههای پزشکی و سلامت افزایش یافته است، اما دقتِ عملکرد این ابزارها در مقایسه با پزشکان هنوز در هالهای از ابهام قرار دارد. آیا چتباتها واقعاً میتوانند جای پزشکانِ انسانی را بگیرند و بیماریها را بهدرستی تشخیص بدهند؟ در این مقالهٔ بلاگ مکس به پاسخِ این پرسش بر اساس یافتههای علمی میپردازیم.
استفاده از هوش مصنوعی در خودتشخیصی چه فرصتها و تهدیدهایی به دنبال دارد؟
بنجامین تولچین (Benjamin Tolchin)، متخصص مغز و اعصاب، و اخلاقپژوه در دانشگاه ییلِ ایالات متحده میگوید سالهاست بعضی بیمارانش قبل از مراجعه به او، علائم بیماریشان را در اینترنت جستوجو میکنند.
بسیاری از پزشکان تلاش میکنند بیماران خود را از انجام این کار بازدارند. آنها عقیده دارند دکتر گوگل (!) بهخاطر ارائهٔ اطلاعاتی بدون زمینهٔ مناسب و استفاده از منابع نامعتبر قابل اعتماد نیست.
اما دکتر تولچین طی ماههای اخیر بیمارانی داشته است که از ابزارهایی جدیدتر و بسیار قدرتمندتر، مانند چتجیپیتیِ شرکت اوپنایآی، نسخهٔ جدید موتور جستوجوی بینگِ مایکروسافت، و همینطور Med-PaLM گوگل برای خودتشخیصی استفاده کردهاند.
این مدلهای زبانی بزرگ (LLM) –که با دادههای متنی از سرتاسر اینترنت آموزش دیدهاند– با پیشبینی کلمههای بعدیِ هر جملهای، به سؤالات کاربرانشان پاسخهایی شبیهِ گفتوگوهای انسانی میدهند.
البته با توجه به کمبود شدید نیروی انسانی در حوزهٔ بهداشت و درمان در بسیاری از کشورهای دنیا و بهویژه در مناطق دورافتادهتر، محققان و متخصصان حوزهٔ پزشکی و سلامت امیدوارند چنین چتباتهایی بتوانند در پاسخ به سؤالاتِ عمومیِ مردم کمک کنند.
جالب است بدانید تحقیقات اولیه حاکی از آن هستند که این ابزارهای مبتنی بر هوش مصنوعی بسیار دقیقتر از جستوجوهای سنتی در گوگل عمل میکنند. تا جایی که بعضی محققان پیشبینی میکنند یکی از مراکز بزرگ پزشکیِ دنیا طی چند ماه آینده از همکاری با چتباتهای مبتنی بر LLM برای تعامل با بیماران و تشخیص اولیهٔ بیماریها خبر خواهد داد.
دکتر تولچین میگوید چند بیمارش برای خودتشخیصیِ علائم بیماری و جستوجوی عوارض جانبی داروها از چتجیپیتی استفاده کردهاند، و به نظر او پاسخهای این چتبات منطقی بوده است.
اما تولچین و سایر متخصصان نگران چالشهای استفاده از چتباتها هم هستند. عدم اطمینانِ کامل به دقت اطلاعات، تهدیدِ حریم خصوصی و همینطور تعصبات نژادی و جنسیتیِ موجود در متونِ منبع الگوریتمها جزو مهمترین چالشها به شمار میروند.
این متخصص اخلاقپژوهی دربارهٔ چگونگیِ تفسیر کاربران از اطلاعات هم ابراز نگرانی کرده است. او میگوید احتمال آسیبهایی جدید در این زمینه وجود دارد، که در جستوجوهای سادهٔ گوگلی نبود.
میزان تشخیص درست بیماری توسط هوش مصنوعی در مقایسه با پزشکان چقدر است؟
واقعیت این است که ارائهٔ خدمات پزشکی طی سالهای اخیر بهشکلی فزاینده به فضای آنلاین منتقل شده است. در دوران همهگیریِ کرونا تعداد پیامهای بیماران به پزشکان از طریق پلتفرمهای آنلاین بیش از ۵۰درصد افزایش یافت.
بسیاری از سیستمهای پزشکی در حال حاضر از چتباتهایی سادهتر برای انجام کارهای روزمره مانند تعیین وقت ملاقات و ارائهٔ اطلاعات کلی دربارهٔ بهداشت و سلامت استفاده میکنند.
اما چتباتهای مبتنی بر مدلهای زبانی بزرگ میتوانند همکاری حوزههای پزشکی و هوش مصنوعی را به سطحی جدید برسانند. اندرو بیم (Andrew Beam)، اپیدمیولوژیست دانشگاه هاروارد، و همکارانش در مطالعهای که ماه فوریهٔ سال میلادی جاری منتشر کردند، تعداد ۴۸ ورودی (prompt) توصیفی از علائم بیماری طراحی نمودند.
آنها این دادهها را به نسخهٔ GPT-3 از چتجیپیتی ارائه دادند که آن زمان بالاترین نسخهٔ این ابزار هوش مصنوعی بود. یافتهها حاکی از آن بودند که در ۸۸ موردِ مختلف، حداقل یکی از سه تشخیصِ اول چتجیپیتی درست بوده است.
آنها همین آزمایش را روی پزشکان انجام دادند، و متوجه شدند بالغ بر ۹۶درصد موارد با استفاده از همان ورودیها تشخیص درست دادهاند. در مقابل عامهٔ مردم فقط در ۵۴درصد موارد موفق به ارائهٔ تشخیص درست شدهاند.
دکتر بیم دراینباره میگوید: «اینکه چنین ابزارهایی میتوانند بهطور پیشفرض علائم را اینقدر خوب بررسی کنند، برایم شگفتآور است!»
پژوهشهای پیشین حاکی از آن بودند که ابزارهای آنلاین بررسی علائم –مانند الگوریتمهای کامپیوتری که در خودتشخیصی به بیماران کمک میکنند– فقط در ۵۱درصد موارد تشخیص درست را بین سه گزینهٔ اول ارائه میدهند.
نکتهٔ دیگر اینکه استفاده از چتباتها نسبت به ابزارهای آنلاین بررسی علائم راحتتر است، زیرا کاربران میتوانند بهسادگی تجربهشان از علائمِ بیماری یا مشکلشان را با کلمهها و جملههای روزمره توصیف کنند. ضمن آنکه این چتباتها مانند یک پزشک، سؤالات بیشتری هم از بیمار میپرسند.
البته دکتر بیم اذعان میکند توصیفات علائم در مطالعهٔ فوق با دقت بالایی نوشته شده بودند، و فقط هم یک تشخیص درست وجود داشت. یعنی چهبسا اگر بیمار توصیف درستی از بیماریاش ننویسد یا اطلاعات مهم را به هوش مصنوعی ندهد، دقت تشخیص تا حد زیادی کاهش یابد.
چالشهای استفاده از هوش مصنوعی برای تشخیص بیماری چه هستند؟
متخصصان حوزهٔ سلامت نگرانِ آسیبپذیری چتباتهای مبتنی بر مدلهای زبانی بزرگ در برابر اطلاعات نادرست هم هستند. این مدلها که با دادههای آنلاین آموزش دیدهاند، کلمهٔ بعدی در هر جملهای را بهطور خودکار پیشبینی میکنند.
اما چنین فرایندی ممکن است اطلاعاتی از منابع معتبر، مانند مرکز کنترل و پیشگیری بیماریهای ایالات متحده (CDC)، و همینطور یک پست تصادفی از فیسبوک را بگیرد و وزن و اهمیت یکسانی به آنها بدهد!
سخنگوی شرکت اوپنایآی در گفتوگو با مجلهٔ Scientific American توضیح داده است که این شرکت آموزشهای پیشرفتهای به مدلهایش میدهد تا پاسخهایش همسو با اهداف کاربران باشند، اما دربارهٔ اینکه آیا منابع خاصی اهمیت بیشتری برای چتجیپیتی دارند یا نه، توضیحی نداده است.
او گفته متخصصان در زمینههای پُرریسک با این شرکت مشارکت داشتهاند تا از ایجاد «توهم» –یعنی پاسخهایی که بهطور نادرست اطلاعات غلط تولید میکنند– در نسخهٔ GPT-4 جلوگیری شود.
سخنگوی این شرکت تأکید کرده است کاربران نباید برای تشخیص بیماریهای جدی، ارائهٔ درمان یا مدیریت مسائل تهدیدکنندهٔ زندگی از چتجیپیتی استفاده کنند.
نکتهٔ مهم اینکه مدلهای مختلف چتجیپیتی بر اساس دادههای موجود تا سپتامبر ۲۰۲۱ آموزش دیدهاند. بنابراین این نگرانی وجود دارد که بعضیها اطلاعاتی نادرست در زمینههایی مانند واکسیناسیون منتشر نمایند، و اینترنت را با محتوایی فریبنده پُر کنند.
مسلماً مدلهای زبانی بزرگ این اطلاعات را هم دریافت میکنند، و بر همان اساس به پرسشهای کاربرانشان پاسخ میدهند. چتباتهای گوگل هم به یادگیری از محتوای جدید در اینترنت ادامه میدهند.
اودد نوو (Oded Nov)، مهندس کامپیوتر در دانشگاه نیویورک، میگوید این تحولات ممکن است رویکردی جدید و فریبکارانه در هدایت مکالمههای آنلاین ایجاد کند.
یکی از راهحلهای رفع این نگرانیها الزامِ ابزارهای مبتنی بر هوش مصنوعی به ذکر منابعِ اطلاعاتشان است. موتور جستوجوی بینگ همین حالا چنین قابلیتی دارد.
اما مطالعات نشان دادهاند مدلهای زبانی بزرگ گاهی منابعی غیرواقعی تولید میکنند که ظاهرشان شبیه ارجاعات معتبر به نظر میرسد! اعتبارسنجیِ این منابع برعهدهٔ خودِ کاربران گذاشته شده است، و مسلماً این بار سنگینی روی دوش آنهاست.
راهحلی که برای این مسئله میتوان در نظر گرفت، کنترل منابع از سوی توسعهدهندگانِ LLM یا بهرهگیری از تیمهای تخصصی برای بررسی حقایق است. چنین تیمهایی میتوانند پاسخهای اشتباهی را بهمرور زمان از مدلها حذف نمایند. اما از طرف دیگر، چنین رویکردی برای حجم عظیم محتوای تولیدی توسط هوش مصنوعی تقریباً غیرممکن است.
شرکتهای هوش مصنوعی برای رفع این مسئله چه راهکاری دارند؟
در این میان گوگل با ابزار Med-PaLM خود رویکردی متفاوت در پیش گرفته است. این ابزارِ هوش مصنوعی از مجموعه دادههای گستردهای، شامل پرسشها و پاسخهای واقعی میان بیماران و ارائهدهندگان خدمات درمانی –مانند پزشکان و بهیاران– و همینطور آزمونهای صدور مجوزهای پزشکی استفاده میکند.
پژوهشگران گوگل در مطالعهای عملکرد Med-PaLM را بر اساس معیارهایی مانند تطابق با اِجماع علمی و پزشکی، و جامعیت و احتمالِ ایجاد آسیب ارزیابی کردند. یافتههای این مطالعه نشان دادند که در ۹۲٫۶درصد موارد پاسخهای این ابزار با اجماع علمی همخوانی دارند. این رقم فقط ۰٫۳درصد کمتر از عملکرد پزشکان برآورد میشود!
البته پاسخهای Med-PaLM نسبت به پاسخهای پزشکان دچار نقصهای اطلاعاتی بیشتری بودند، اما احتمال آسیبرسانی به سلامت کاربران در آنها کمتر بود.
توانایی این باتها در پاسخگویی به سؤالات پزشکی برای پژوهشگران شگفتآور نبود. نسخههای اولیهٔ چتجیپیتی و Med-PaLM آزمون صدور مجوز پزشکی ایالات متحده را هم پشت سر گذاشتهاند!
اما آلن کارتیکسالینجام (Alan Karthikesalingam)، پژوهشگر بالینی در گوگل و یکی از نویسندگان مطالعهٔ Med-PaLM، دراینباره میگوید یادگیری اینکه پرسشها و پاسخهای بیماران و ارائهدهندگان خدمات درمانی چگونه به نظر میرسند، به هوش مصنوعی کمک میکند تصویری کلیتر از سلامت فرد داشته باشد. او عقیده دارد شرایط واقعی آزمونی چندگزینهای نیست، بلکه تعادلی ظریف میان بیمار، پزشک و سایر زمینههای اجتماعی است.
سرعت ورودِ چتباتها به حوزهٔ پزشکی بعضی پژوهشگران را –حتی آنهایی که بابت ظرفیت این فناوریِ جدید هیجانزده هستند– نگران کرده است. برای نمونه، دکتر مرضیه قاسمی، دانشمند علوم کامپیوتر در مؤسسهٔ فناوری ماساچوست، میگوید: «آنها این فناوری را پیش از آن به کار میگیرند که نهادهای نظارتی بتوانند بررسیهای لازم را صورت بدهند.»
تبعیض و نژادپرستی چه نقشی در این میان دارند؟
دکتر قاسمی نگران است که چتباتها به تداوم نژادپرستی، تبعیض جنسیتی و سایر شکلهای پیشداوری و سوگیری که نهتنها در دنیای پزشکی، که در سرتاسر اینترنت وجود دارند، دامن بزنند.
او میگوید: «آنها بر اساس دادههایی آموزش دیدهاند که انسان تولید کرده است. بنابراین هر نوع تعصبی که بتوان تصور کرد، در خود دارند»؛ باورهای غلطی مثل اینکه زنان کمتر از مردان داروی مُسکن تجویز میکنند، یا سیاهپوستها بیشتر از سفیدپوستها بهاشتباه مبتلا به اسکیزوفرنی تشخیص داده میشوند، یا احتمال تشخیص افسردگی در آنها کمتر است!
اینها نمونههایی از باورها، تعصبات و سوگیریهای موجود در دنیای آموزش پزشکی و کلیشههای اجتماعی هستند که مسلماً هوش مصنوعی از دادههای آموزشیِ خود دریافت میکند.
دکتر بیم که پیشتر دربارهٔ مطالعهاش گفتیم، متوجه شده وقتی از چتجیپیتی دربارهٔ اعتماد به توصیف علائم توسط بیمار میپرسد، این ابزار هوش مصنوعی برای گروههای خاص نژادی و جنسیتی اعتماد کمتری در نظر میگیرد!
مسلماً پاکسازیِ کامل نژادپرستی از گوشهوکنارِ اینترنت غیرممکن است، اما دکتر قاسمی میگوید توسعهدهندگان میتوانند با انجام ممیزیهای پیشگیرانه، مواردی را که چتباتها متعصبانه پاسخ میدهند، شناسایی و از آنها جلوگیری کنند. آنها میتوانند تعصبات رایج در گفتوگوهای روزمرهٔ چتباتها با کاربران را هم شناسایی و رفع کنند.
راهکار رفع تبعیض و نژادپرستی در پاسخهای چتباتها چیست؟
راهحلِ مسئلهٔ مذکور در روانشناسی انسانی نهفته است. شاید برایتان جالب باشد بدانید تیمِ مطالعاتیِ دکتر قاسمی بات شروری مبتنی بر LLM طراحی کردند که پاسخهایی متعصبانه به سؤالاتِ پزشکیِ اورژانسی میداد.
آنها در بررسیِ گفتوگوهای کاربران با این چتبات متوجه شدند که اگر پاسخها بهشکل دستوری ارائه شوند، هم پزشکان و هم افراد غیرمتخصص به احتمال زیاد آنها را رعایت میکنند! در طرف مقابل، اگر ابزاری مبتنی بر هوش مصنوعی همین اطلاعات را به شکل معمول ارائه کند، کاربران بهندرت از آنها پیروی میکنند.
دکتر کارتیکسالینجام میگوید توسعهدهندگانی که MedPaLM را در گوگل آموزش میدهند و ارزیابی میکنند، گروهی متنوع –از نظر نژادی و جنسیتی– هستند. این امر میتواند به گوگل کمک کند تا تعصبات موجود در این چتبات را شناسایی و رفع کند. او در عین حال تأکید میکند که رفع تعصبات فرایندی همیشگی است و به چگونگیِ استفاده از سیستم بستگی دارد.
شکل رابطهٔ چتباتها با کاربران چه تأثیری روی اعتمادشان میگذارد؟
اطمینان از اینکه مدلهای زبانی بزرگ بیماران را بهطور عادلانهای درمان میکنند، برای جلب اعتماد مردم به این چتباتها ضروری است، اما خودِ این مسئله چالشی بزرگ به شمار میرود.
برای نمونه، هنوز مشخص نیست که آیا مرور پاسخهای جستوجوی گوگل باعث میشود مردم هوشمندانهتر عمل کنند یا دریافت پاسخ مستقیم از یک چتباتِ مبتنی بر هوش مصنوعی آنها را کمتر محتاط میکند.
تولچین نگران است که رفتار دوستانه چتباتها به اعتماد بیشازحد کاربران منجر شود، و آنها اطلاعات شناسایی شخصی خود را هم در اختیار باتها قرار بدهند؛ رویکردی که ممکن است آنها را در معرض خطرهای مختلفی قرار بدهد.
بر اساس هشدارهای موجود در وبسایت اوپنایآی، چتجیپیتی اطلاعاتی مانند موقعیت مکانی و آدرس IP کاربران را جمعآوری میکند. تولچین هشدار میدهد که حتی اظهارنظرهای بهظاهر بیضرر دربارهٔ اعضای خانواده یا علایق شخصی هم ممکن است حریم خصوصی فرد را تهدید کنند.
دیگر اینکه مشخص نیست آیا مردم تمایل دارند اطلاعات پزشکیِ مورد نیازشان را بهجای پزشک، از چتبات بگیرند! اوایل سال میلادیِ جاری اپلیکیشن سلامت روانی بهنام Koko که به داوطلبان امکان میدهد مشاورهٔ رایگان و محرمانه ارائه بدهند، آزمایشی انجام داد که در آن از نسخهٔ GPT-3 برای نوشتن پیامهای تشویقی برای حدود ۴هزار کاربر استفاده شد.
بهگفتهٔ راب موریس (Rob Morris)، از بنیانگذاران Koko، این بات به داوطلبان کمک میکرد پیامها را سریعتر از آن چیزی تهیه کنند که پیشتر خودشان مینوشتند.
اما وقتی کاربران متوجه شدند که با باتِ هوش مصنوعی گفتوگو میکنند، تأثیر پیامها کمتر شد، و شرکت هم این آزمایش را سریعاً متوقف کرد. این آزمایش واکنشهایی منفی و نگرانیهایی دربارهٔ آزمایش روی افراد بدون رضایتشان هم برانگیخت.
نظرسنجی اخیری از مرکز تحقیقاتی Pew حاکی از آن است که حدود ۶۰درصدِ آمریکاییها «احساس ناخوشایندی خواهند داشت اگر ارائهدهندهٔ خدمات بهداشتی برای کارهایی مانند تشخیص بیماری و توصیهٔ درمان به هوش مصنوعی متکی باشد.»
البته مردم همیشه در تشخیص تفاوت بین چتبات و انسان عملکرد خوبی ندارند، و با پیشرفت فناوریهای مبتنی بر هوش مصنوعی، این ابهام بیشتر هم خواهد شد.
در مطالعهٔ دیگری، نوو، سینگ و همکارانشان آزمون تورینگ پزشکی طراحی کردند تا بررسی کنند آیا ۴۳۰ شرکتکننده در این مطالعه میتوانند چتجیپیتی را از پزشکی انسانی تشخیص بدهند یا نه!
در ضمن پژوهشگران از چتجیپیتی نخواستند که با کاربر همدلی کند یا شبیه پزشک صحبت کند. آنها فقط از چتبات خواستند به ۱۰ پرسشِ ازپیشتعیینشده توسط بیماران پاسخ بدهند. جالب است بدانید در ۶۵درصد موارد، شرکتکنندگان توانستند چتبات و پزشک را بهدرستی تشخیص بدهند.
دِوین مان (Devin Mann)، پزشک و پژوهشگر انفورماتیک در مرکز پزشکی لانگون نیویورک، و از نویسندگان مطالعهٔ مذکور معتقد است داوطلبان نهتنها بر اساس تفاوتهای ظریف در شیوهٔ بیان انسانی، بلکه بر اساس جزئیات پاسخها، تصمیمگیری کردهاند.
سیستمهای هوش مصنوعی زمان و صبر بیپایانی دارند، و چهبسا مسائل را آهستهتر و کاملتر توضیح بدهند. اما پزشک معمولاً پُرمشغله است و پاسخهایی مختصر ارائه میدهد. مان میگوید این اطلاعات پسزمینهایِ اضافی و توضیحات جامع ممکن است برای بعضی بیماران ایدئالتر باشد.
پژوهشگران متوجه شدند کاربران برای یافتنِ پاسخِ پرسشهای ساده به چتباتها اعتماد بیشتری نشان میدهند، اما هرچه سؤال پیچیدهتر میشود، و میزان خطر یا پیچیدگیاش افزایش مییابد، تمایلِ کاربران به تشخیصهای مبتنی بر هوش مصنوعی کمتر میشود.
دکتر مان میگوید مدیریت بخشی از فرایند تشخیص و درمان توسط سیستمهای هوش مصنوعی احتمالاً اجتنابناپذیر است، اما مهم اینجاست که افراد بدانند اگر از پاسخهای چتبات راضی نیستند، میتوانند به پزشک مراجعه کنند.
مان پیشبینی میکند که بهزودی مرکز پزشکی بزرگی با بهرهگیری از چتباتهای مبتنی بر هوش مصنوعی رونمایی خواهد شد که در تشخیص بیماریها کمک میکند.
این همکاری بین فعالان حوزهٔ پزشکی و سلامت، و ابزارهای هوش مصنوعی پرسشهایی جدید مطرح خواهند کرد، از جمله اینکه:
- آیا از بیماران و بیمهگران بابت این خدمات هزینه دریافت میشود؟
- چگونه میتوان از دادههای بیماران محافظت کرد؟
- اگر توصیههای چتبات به کسی آسیب برساند، چه کسی مسئولیتش را میپذیرد؟
در همین حال پژوهشگران امیدوارند فرایند عرضهٔ این فناوری بهتدریج پیش برود، و شاید در حال حاضر به تحقیقات بالینی محدود شود تا توسعهدهندگان و متخصصان پزشکی بتوانند اشکالاتش را برطرف کنند.
دکتر تولچین یک نکته را در این زمینه دلگرمکننده میداند: «خودم در آزمایش شرکت کردم، و خوشحال شدم که دیدم چتبات مدام توصیه میکند کاربر به پزشک مراجعه کند.»
حالا نوبت شماست!
نظرتان دربارهٔ پیشرفتهای هوش مصنوعی در حوزهٔ پزشکی و سلامت چیست؟ مشخصاً از ابزارهای مبتنی بر هوش مصنوعی برای تشخیص و درمان استفاده کردهاید؟ به نظرتان ممکن است زمانی برسد که ChatGPT و سایر چتباتها بتوانند جایگزینی کامل برای ارائهدهندگان خدمات پزشکی باشند؟