מחקר חדש קבע לכאורה כי התשובות של בוט הבינה המלאכותית עולות על אלה של רופאים אנושיים, ואפילו אמפתיות יותר... אבל יש בו כמה בעיות מהותיות

מאז שפרץ לחיינו בסערה אשתקד הספיק ChatGPT להיכנס לשימוש יומיומי של הציבור הרחב ושל אנשי מקצוע גם יחד. הצ'אט-בוט המבוסס על בינה מלאכותית מסייע לתלמידים בגיל בית ספר ולסטודנטים לבצע מטלות בלימודים, ואף השתתף לאחרונה בהכרעות משפטיות, בניהול השקעות בשוק ההון וידו הווירטואלית עוד נטויה.

בינה מלאכותית ממלאת שלל משימות ברפואה מזה שנים, ואך טבעי שתתעורר השאלה אם גם ChatGPT מסוגל להשתתף במשחק. אולם חשוב לזכור שבינה מלאכותית היא יעילה כל עוד השימוש בה הוא אחראי ומודע למגבלותיה ולנקודות התורפה שלה.

מחקר שפורסם לאחרונה בחן את יכולות הבוט בתחום השאילתות הרפואיות, והסיק כי הבוט מספק תשובות איכותיות ואמפתיות, שעדיפות על פני תשובות של רופאים. כלי התקשורת מיהרו לקפוץ על העגלה והמליצו לרופאים להתייחס ברצינות הראויה לבינה המלאכותית, אך מבלי שפקפקו מדי במסקנות המחקר. המציאות, כדרכה, מורכבת יותר.


במסגרת המחקר, ענה ל-195 שאלות רפואיות שכבר נענו על ידי רופאים אנושיים בפורום אינטרנט. אתר ChatGPT על צג מחשב | Ryan DeBerardinis, Shutterstock

שורה של כשלים

לצורך ההשוואה השתמשו החוקרים ב-195 שאלות רפואיות שכבר קיבלו מענה מרופא אנושי בפורום "שאל את הרופא" של האתר רדיט (Reddit). כך שמלכתחילה ההשוואה נגעה לרופאים בפלטפורמה אינטרנטית ייעוצית, ולא לרופאים בפגישה טיפולית פנים אל פנים עם מטופל. ההקשר הוא משמעותי מאוד, שכן פורומים הם במות פומביות ולא אישיות, שמשאירות מעט מאוד מקום ליחס אישי ולהפגנת אמפתיה.

אותן שאלות הוזנו גם ל-ChatGPT. לאחר מכן מסרו לשלושה בודקים את כל השאלות ואת התשובות של הרופא והבוט. ההצגה הייתה עיוורת, כלומר הבודקים לא ידעו איזו תשובה נתן הרופא ואיזו הבוט. כל בודק בחר בכל שאלה את התשובה העדיפה בעיניו מבין השתיים, ודירג מ-1 עד 5 את מידת האמפתיה ואת האיכות של כל תשובה. שלושת הבודקים חתומים כשותפים לכתיבת המאמר, דבר שעלול גם הוא להטות את הממצאים.

החוקרים הסיקו שב-79 אחוז מהשאלות תשובת הבוט נמצאה עדיפה על תשובת הרופא. כמו כן ציוני האיכות והאמפתיה של התשובות שנתן הבוט עלו על הציונים שקיבלו תשובות הרופאים. למרות זאת, לכל אורך המאמר לא הוגדר כלל מהי תשובה איכותית. רק בפסקה האחרונה של ניתוח התוצאות הודו הכותבים שהם כלל לא בדקו עד כמה התשובה מדויקת ואם המידע שניתן בה אמיתי או מומצא.

מפתחי ChatGPT עצמם מזהירים בהבלטה רבה שמדי פעם הבוט מספק תשובות שנשמעות אמינות, אך למעשה הן שגויות ומגוחכות. המפתחים מציינים כי תיקון הבעיה הזאת מציב בפניהם אתגר משמעותי. פורומים מקצועיים מסוימים, כגון Stack Overflow המיועד למפתחי תוכנה וחומרה, כבר חוסמים תשובות של ChatGPT בטענה שהן אינן מדויקות מספיק. תשובות שיוצרות רושם אמין אך בפועל מכילות תוכן שגוי עלולות להתל בקוראים תמימים ולעודד הפצת מידע כוזב. שירותי חדשות וספקי תוכן מקצועי כמו מאמרים מדעיים כבר מביעים דאגה ניכרת מהמצב הקיים. 

ChatGPT הוא בוט שמטרתו לספק תגובה מתאימה בשפה טבעית לפנייה של המשתמש. אחד החידושים המשמעותיים בו הוא שהבוט מסוגל לקחת בחשבון בתשובותיו את כל מהלך ההתכתבות עם המשתמש, ויודע להתאים את עצמו אליו במהלך השיחה. אולם מאגר הידע שעליו הוא מסתמך הוא מוגבל ולא מתעדכן, כך שגם תשובותיו עלולות להיות שגויות.

מודלי שפה כמו זה ש-ChatGPT מבוסס עליו נבנים על ידי כך שחושפים אלגוריתם של בינה מלאכותית למאגר עצום של נתונים ומניחים לו לזהות את מכלול הקשרים שמחברים ביניהם. לפעולה הזאת קוראים אימון. גרסה 3.5 של ChatGPT אומנה על טקסטים שפורסמו עד שנת 2021 ולא עודכנה לאחר מכן. כלומר הבוט לא נחשף כלל לחידושים שהצטברו בשנה וחצי האחרונות. בנוסף, כמו כל טכנולוגיה המבוססת על בינה מלאכותית, השימוש בבוט מעורר שאלות מוסריות, למשל מי לוקח אחריות על תשובה שגויה שגרמה נזק למשתמש?


מהי אמפתיה? החוקרים לא ציינו איך המדרגים הגדירו אותה. רופא נוגע בידי המטופלת להבעת תמיכה | Peang 99, Shutterstock

מה זאת אמפתיה?

כותבי המאמר אף מציינים שתשובות הבוט דורגו גבוה יותר מתשובות הרופאים ברמת האמפתיה שהם הפגינו כלפי השואלים. כאן יש שתי בעיות עיקריות. ראשית, כמו בנושא איכות התשובה, במאמר לא מצוין איך הגדירו המדרגים מהי בדיוק אמפתיה. בנוסף, כותבי המאמר עצמם מציינים שנמצא קשר בין אורך התשובה לציון האמפתיה שניתן לה. כלומר המדרגים נטו לייחס יחס אוהד יותר למנסחי תשובות ארוכות. מכיוון ש-ChatGPT מייצר תשובות ארוכות יותר בממוצע מאלה של הרופאים, ייתכן שהקשר בין מדד האמפתיה לאורך התשובה מעיד על הטיה לטובת הבוט.

ובכל זאת, יש מה ללמוד מהמחקר. אמפתיה היא מרכיב חשוב בתקשורת בין מטופלים לרופאיהם, וייתכן שתשובות מפורטות וארוכות יותר ישפרו את טיב הקשר ביניהם. כשנותנים ייעוץ רפואי, אי אפשר לוותר בשום פנים ואופן על הדרישה לתשובות מדויקות ואמינות, מצד גורם אחראי שמודע להשלכות האפשריות של המלצותיו. ChatGPT בפני עצמו לא עונה לדרישות האלה. עם זאת, בוטים מסוגו יכולים לשרת בעלי מקצוע אחראיים וביקורתיים, שיודעים לסנן מידע שגוי ומטעה. בדומה לכלים אחרים לעריכת טקסט, כמו תיקון אוטומטי של שגיאות כתיב, הוא יכול לשמש כלי עזר שיחסוך למומחים מיומנים זמן ומאמץ במתן מענה מהיר ומפורט. 

 

2 תגובות

  • גל

    אמפתיה זה העיקר?

    כשאני יושב אצל הרופא אז חשוב לי שיהיה אמפתי. כשאני יושב בבית ומחפש מידע או תשובה לשאלה האמפתיה לא מעניינת אותי, אני רק רוצה את המידע, וזה רק עניין של זמן עד שchatgpt יהיה עדיף כי בכל מה שקשור לגישה למידע מחשב תמיד ינצח, וזה רק עניין של זמן עד שגם תהיה לו גישה למידע הכי מעודכן.

  • טל

    שיקול דעת ואחריות

    אני מסכימה שעתיד הטכנולוגיה נדמה בלתי מוגבל, ואפשר שמידת האמינות של האמצעים האלו תשתפר משמעותית.
    אולם אפילו מידע הוא לא תמיד חד משמעי, ויש לצורך העניין גם במדע העדכני ביותר עדויות סותרות או אי הסכמות. מי יכריע?
    ומה לגבי שאלת האחריות? על מי תיפול האחריות כאשר תבחר בגישה רפואית כזו או אחרת על סמך תשובה אוטומטית?