עולם ה"ביג דאטה" משנה את היחס שלנו לרפואה ופותח דרכים חדשות לחשוב על תהליכים ביולוגיים ומחלות

המושג "ביג דאטה" (נתוני עתק) צבר פופולריות רבה בשנים האחרונות, ככל שהתקדמו טכנולוגיות המידע והשתפרה היכולת שלנו לעבד נתונים  ולהסיק מהם מסקנות. בתחום הרפואה אנו לומדים לעבד את כל המידע הרפואי המתקבל על קבוצות גדולות מאוד של אנשים ממגוון מקורות, ובכלל זה גיליונות רפואיים אלקטרוניים (למשל סיכום ביקור אצל רופא), הדמיות, ריצוף גנטי, מחקרים רפואיים ונתונים ממכשור רפואי לביש כמו צמידים חכמים שמנטרים מדדים פיזיולוגיים של מי שעונדים אותם.

כשמדברים על ביג דאטה מתכוונים למאגרי ענק של נתונים המכילים מידע מגוון, החל בדו"חות רשמיים וכלה בנתונים שנאספו מהאינטרנט. מחשבים משוכללים מעבדים את המידע הזה ומפיקים ממנו מסקנות בשלל תחומים, כגון תחבורה, כלכלה, אסטרונומיה ועוד. כיוון שהנתונים נאספים ממקורות רבים, לעיתים הם אינם מסודרים או מקוטלגים. כדי להשתמש במאגרים הללו עלינו לפתח כלים חישוביים חדשים. לצורך כך הולך ומתפתח היום תחום מדעי הנתונים, שהעוסקים בו עוברים הכשרה נרחבת בשימוש במאגרי מידע גדולים במיוחד. 

שרתי מחשב של ביג דאטה ברפואה | צילום: Tommy Lee Walker, Shutterstock
תחום חדש וכלים מחקריים חדשים. שרתי מחשב של ביג דאטה ברפואה | צילום: Tommy Lee Walker, Shutterstock

שימושים רבים

כבר כעת אפשר למצוא כמה וכמה יוזמות מעניינות בתחום. חוקרים מפתחים לדוגמה מודלים שמבקשים לחזות מתי קשישים שסובלים מקבוצה מסוימת של מחלות עשויים להידרדר. אחרים מפתחים אלגוריתמים שיידעו לנתח תמונות רנטגן, או מפתחים מודלים שנועדו לזהות קבוצות אוכלוסייה שנמצאות בסיכון לפתח מחלה מסוימת. חברה ישראלית אף מנסה לפתח תוכנה שתשתמש בביג דאטה ובכלים של בינה מלאכותית כדי לשפר את רמת הבטיחות של טיפולים רפואיים. בטייוואן הקדימו להשתמש בביג דאטה כדי לבלום ביעילות את התפשטות COVID-19, המחלה שגורם נגיף הקורונה החדש. 

מכוני הבריאות הלאומיים בארצות הברית (NIH) מובילים יוזמה משותפת עם מרכזי מחקר נוספים בתחום הרפואה המדויקת. המטרה היא להבין איך אפשר להיעזר במידע על מאפיינים גנטיים, על מאפיינים סביבתיים ועל אורח החיים כדי למנוע מחלות או לשפר את הטיפול בהן. לצורך זה מתבצע מעקב רפואי אחרי קבוצה של יותר ממיליון בני אדם בארצות הברית, שמהם יאספו מידע גנטי, דגימות ביולוגיות ומידע נוסף על מצבם הרפואי. חוקרים יוכלו להשתמש במידע שנאסף למחקרים על גורמי סיכון למחלות, להבנת תהליכים שמובילים להתפתחותן לאורך זמן ולשיפור איכות האבחון והטיפול במחלות.

גם משרד הבריאות הישראלי אינו קופא על השמרים, ומינה צוות שמטרתו להקים תשתית לאומית שתאפשר ניצול מרבי של כמויות המידע האדירות הנצברות בבתי החולים ובקופות החולים. יעדיו כוללים שימוש במידע לצורך פיתוח תרופות חדשות, סיוע באבחון מוקדם של מחלות, איתור צווארי בקבוק במערכת הבריאות, סיוע בקבלת החלטות וגיבוש מדיניות.

מאגרי המידע המשמשים את החוקרים במדע הנתונים הם מגוונים. חלקם, כגון המחקר של ה-NIH, מגייסים נבדקים באופן פעיל ואוספים נתונים ישירות מהם. מחקרים רבים יותר משתמשים במאגרי נתונים שקיימים כבר במערכת הבריאות ומנתחים אותם בחיפוש אחרי דפוסים.

 רופאה בוחנת צילומים | צילום: BSIP, RAGUET / SCIENCE PHOTO LIBRARY
מחשבים יחליפו רופאים בפענוח צילומי רנטגן? רופאה בוחנת צילומים | צילום: BSIP, RAGUET / SCIENCE PHOTO LIBRARY

נפח, מהירות ושוני

חוקרים בתחום מגדירים שלושה מאפיינים שמבדילים את הביג דאטה ממאגרי מידע רפואיים מסורתיים. הם מכונים שלושת ה-Vים של הביג דאטה: נפח הנתונים (Volume), המהירות (Velocity) והשונות (Variability) במבני הנתונים ובסוגיהם. 

נפח הנתונים האופייני לביג דאטה עולה על יכולת העיבוד של כלי ניתוח הנתונים המקובלים, ולכן הם דורשים פיתוח של כלים ושל אלגוריתמים חדשים. לפי הערכות, נפח הנתונים במאגרי המידע הרפואיים גדל באופן מעריכי ומגיע לגדלים בלתי נתפסים. לדוגמה, יש כיום מאגרים ממוחשבים שנאספו בהם עם השנים נתונים על מיליוני חולים, וחוקרים יכולים להיעזר בהם למחקרים בעתיד. דוגמה נוספת היא מיזם Visible Human, המכיל הדמיות של גוף האדם באלפי חתכים שונים, מידע שיכול לשמש בין השאר לפיתוח אלגוריתמים בתחום ההדמיה הרפואית.

השוני בנתונים נובע מכך שלא פעם צריך להצליב בין מאגרים שכוללים מגוון רב של סוגים ורמות של נתונים המושגים בדרכים שונות. לדוגמה, ברמה התאית אפשר לאסוף נתונים מקביעת רצף הגֵנים של אנשים או ניתוחים של סמנים מולקולריים בתא. מידע נוסף, ושונה מאוד, מתקבל מבדיקות דם ובדיקות הדמיה, ואליו מצטרף מידע מילולי רב ובלתי מאורגן מסיכומי בדיקות שערכו רופאים.

ולבסוף, אלמנט המהירות מתייחס לקצב התזזיתי שבו נתונים חדשים מצטברים, ולכוח החישובי הדרוש כדי להתמודד עם מאגרי המידע העצומים.

 ארכיון תיקים מנייר | צילום: Science Photo Library
המיחשוב המתקדם מספק כלים שמחליפים מאגרי מידע מסורתיים. ארכיון תיקים מנייר | צילום: Science Photo Library

תובנות חדשות

לביג דאטה יש מגוון רחב של שימושים ברפואה, מזיהוי גורמי סיכון למחלות כרוניות, דרך התפשטות מגפות ועד ניהול סיכונים בבתי החולים. 

מאגרי המידע העצומים מאפשרים לחוקרים לזהות סמנים למצבי מחלה אלה ואחרים מתוך אוכלוסייה גדולה. שפע הנתונים מאפשר להגיע לממצאים בעלי משמעות סטטיסטית, וכך לפתח תובנות חדשות ואפילו מודלים שיחזו אילו אוכלוסיות נמצאות בסיכון למחלה מסוימת. ניתוח שנעשה על מאגר המידע הרפואי של יוצאי צבא ארצות הברית הצליח לדוגמה לזהות כי חולי סוכרת הם בסיכון גבוה מהרגיל להתפתחות של מחלות נפש

דוגמה נוספת היא השימוש שנעשה בטכניקת "כריית מידע" לפיתוח מודל שיסייע באבחון מחלת ריאה חסימתית כרונית. מדובר במחלה לא פשוטה לאבחון מוקדם, אולם מידע על אורח החיים ומחלות רקע יכול לסייע רבות בזיהויה. חוקרים בהודו פיתחו לשם כך מערכת שאוספת מידע רפואי ממקורות רבים, ועל פיהם זיהו מאפיינים, כגון עישון, שיעול, כאבים בחזה וקוצר נשימה, שעשויים לסייע באבחון המחלה. 

בארץ, קבוצת המחקר של פרופ' ערן סגל ממכון ויצמן למדע בחנה אם אפשר לנבא את הסיכון להתפתחות סוכרת היריון. לשם כך חיפשו אחרי סימנים מקדימים, החל מהשלבים הראשוניים של ההיריון, שעשויים להעיד כי האם לעתיד עלולה לפתח סוכרת הריון. לצורך זה הם ניתחו נתונים על קרוב ל-600 אלף הריונות שתועדו במאגר של קופת חולים כללית. השימוש במאגר המידע הגדול אִפשר לחוקרים לזהות סימנים מקדימים שמנבאים התפתחות של סוכרת היריון, כמו תוצאות מבחן העמסת גלוקוז מהיריון קודם, גיל האישה, מדד מסת הגוף שלה (BMI) והיסטוריה משפחתית של סוכרת. על סמך הממצאים הם יצרו שאלון שנועד לסייע לנשים להעריך את הסיכון שלהן, במטרה שיוכלו להסתייע בו לצד בדיקות הסקר הרגילות במהלך ההיריון. 

בדיקת סוכר בהיריון | צילום: JOSE OTO / SCIENCE PHOTO LIBRARY
מאגר גדול איפשר לזהות סימנים מקדימים לסוכרת היריון. בדיקת סוכר בהיריון | צילום: JOSE OTO / SCIENCE PHOTO LIBRARY

יחסי גומלין מפתיעים

שילוב של מאגרי מידע שונים מאפשר לבצע הצלבות וללמוד איך מצב מסוים, שהמידע עליו נמצא במאגר א', משפיע על מחלה מסוימת שהמידע הרלוונטי לה נמצא במאגר ב' . לדוגמה, רשויות מחוז אונטריו בקנדה יזמו מחקר רחב היקף שנועד לשפר את איכות הטיפול במחלות לב וכלי דם. לשם כך מקימים שם  כיום מאגר מידע המתבסס על מספר מאגרים קיימים הכוללים מידע על ביקורי רופא, בדיקות מעבדה ורישומי תרופות. השאיפה היא לזהות כך נקודות לשיפור בטיפול ואף לאפשר התערבות מוקדמת.

דוגמה נוספת מגיעה מתחום רפואת עיניים. חוקרים מאוסטרליה קישרו את המאגר הלאומי העוקב אחר חולי דיאליזה ומושתלי כליה למאגר חולי הסרטן, ליצירת מאגר גדול מספיק שיאפשר ללמוד את הקשר בין דיכוי מערכת החיסון להתפתחות סרטן בעין. המחקר מצא כי אכן יש עלייה של 20 אחוז בהתפתחות סרטן העין אצל מטופלים מדוכאי מערכת חיסון. 

ביג דאטה יכול לשמש גם כדי לבחון אם יש קשר אמיתי בין אירועים רפואיים סמוכים. לדוגמה, חוקרים בצרפת ניתחו את סיבות המוות של כ-400 אלף בני אדם בשנים 2009-2008, וניסו לזהות מקרים שבהם אין קשר בין סיבת האשפוז האחרון לסיבת המוות ולמפות אותם מבחינה גיאוגרפית וסוציואקונומית. החוקרים זיהו אירועים שבהם המוות לא התרחש כתוצאה מהסיבה שהובילה לאשפוז, וטוענים כי יש לקזז אירועים כאלה כשמחשבים את שיעור התמותה מסיבה מסוימת. 

באופן דומה, מאגרי המידע הגדולים מאפשרים לחוקרים לזהות דפוסי התנהגות באוכלוסייה, למשל הרגלים שמובילים להשמנת יתר. חוקרים בארצות הברית השתמשו במאגרי מידע של המרכז לבקרת מחלות (CDC) כדי לפתח מודלים שמזהים קבוצות באוכלוסייה הנמצאות בסיכון להשמנת יתר, וכך מאפשרים התערבות רפואית מוקדמת כבר בגיל צעיר. 

ביג דאטה יכול לשמש גם לניהול סיכונים. חברת הטכנולוגיה אינטל שיתפה פעולה עם קבוצת בתי חולים בסן דייגו כדי לפתח כלים לזיהוי חולים שמצבם הרפואי עלול להחמיר ודורשים התערבות רפואית מהירה. ליישומים כאלה יש גם משמעות אתית וחברתית עמוקה, שכן גם חברות ביטוח יוכלו להשתמש בהם כדי לחזות מי מהמבוטחים שלהן עלול להזדקק לטיפולים מורכבים ויקרים בעתיד, ולייקר את הפוליסה או לבטל את הביטוח שלהם באופן חד צדדי. לכן חשוב שההתפתחות הטכנולוגית תלווה בבקרה מתאימה. 

הצלבת נתונים, זיהוי דפוסי התנהגות וניהול סיכונים. שימוש בביג דאטה ברפואה | צילום:  JASON BUTCHER / CULTURA / SCIENCE PHOTO LIBRARY
הצלבת נתונים, זיהוי דפוסים וניהול סיכונים. ביג דאטה ברפואה | צילום:  JASON BUTCHER / CULTURA / SCIENCE PHOTO LIBRARY

לעצור את המגפה

ביג דאטה יכול לשמש גם כדי לחזות התפרצות וההתפשטות של מחלות ומגפות. לשם כך יש גופים שמשלבים לא רק מאגרי נתונים רפואיים, אלא גם מידע מהרשתות החברתיות וממנועי חיפוש. 

חברת גוגל ניסתה לדוגמה להשתמש במעקב אחרי חיפושים הקשורים לשפעת (תסמיני שפעת, חיסון לשפעת, מחלת השפעת) במנוע החיפוש שלה כדי לזהות בשלב מוקדם התפרצויות של מגפות שפעת במקומות שונים בעולם. תחילה נראה שהכלי הזה עובד, אל בהמשך הוא זיהה מגפה שלא פרצה באמת, פשוט כי העיסוק התקשורתי בנושא השפעת העלה את העניין הציבורי במחלה.

כלי אחר שפותח בברזיל השתמש בכלי בינה מלאכותית שסרק נתונים מטוויטר הנוגעים למחלה, על מנת לנבא את כיוון ההתפשטות של מגפת קדחת דנגי במדינה. ואילו קבוצת חוקרים מארצות הברית ואנגליה השתמשה בכלים של בינה מלאכותית כדי לשלב מידע אפידמיולוגי עם נתונים מרשתות חברתיות ולהציג בזמן אמת התפרצויות של מחלות מידבקות בעולם. חוקרים מעריכים כי נכון להיום הכלים הללו יעילים בעיקר לחזות התפרצות של מחלות עונתיות. 

הכלים לחיזוי מגפות עדיין בחיתוליהם. תור לקניית מסכות פנים בבנגקוק, תאילנד | צילום: masaya sripum, Shutterstock
הכלים לחיזוי מגפות עדיין בחיתוליהם. תור לקניית מסכות פנים בבנגקוק, תאילנד | צילום: masaya sripum, Shutterstock

ההבטחה והגבולות

עידן הביג דאטה טומן בחובו הבטחות רבות, אך מאמר ממעבדתו של סגל מצביע על שורה של קשיים שזקוקים עדיין לפתרון. לדוגמה, מודלים של ביג דאטה עשויים לסייע מאוד בניתוח מאגרי מידע גדולים, אבל ערכם פוחת כשמבקשים לחקור מחלות נדירות, שמספר החולים בהן קטן. מגבלה נוספת היא כלכלית וארגונית – מחקר רב משתתפים עלול להיות יקר מאוד ולא תמיד קל לגייס לו משתתפים. בנוסף, ניתוח הנתונים מחייב לא פעם לגייס או לפתח כלים חישוביים וסטטיסטיים שיתאימו בדיוק לסוג המידע הרצוי, כגון מידע גנטי, סריקות MRI וגיליונות רפואיים.

במחקרים ארוכי טווח, בתחום הביג דאטה ובכלל, עלולות להיווצר הטיות עקב מאפייני האוכלוסייה שמסוגלת להתמיד במחקר ובמפגשי המעקב. יכול למשל להיות שהקבוצה המתמידה בבדיקות ניחנת מלכתחילה במודעות בריאותית גבוהה מהממוצע או מנגישות גבוהה יחסית למערכת הבריאות. לכן חשוב מאוד לקחת בחשבון את ההשפעה שעשויה להיות לייצוג לא פרופורציוני של קבוצה כלשהי על תוצאות המחקר. כמו כן, נתונים ממקורות שונים עשויים להתקבל בתבניות שונות. על מנת לנתח אותם ולהשוות ביניהם, חוקרי ביג דאטה צריכים לפתח דרכים לסטנדרטיזציה של הנתונים – יצירת בסיס משותף ואוצר מילים זהה. אחד האמצעים הוא המהדורה העשירית של ספר האבחנות הרפואיות ICD (קיצור של International Statistical Classification of Diseases and Related Health Problems), שמגדיר קוד לכל אבחנה ויוצר אחידות בין מרכזים רפואיים בכל העולם. קיימת גם בעיה אתית בנושא השמירה על החיסיון הרפואי של נבדקים, שכן הצלבה בין נתונים הנוגעים להם במאגרים שונים מחייבת להשתמש בפרטים מזהים שלהם. 

מערכת מידע רפואי | איור: pandpstock001, Shutterstock
יש צורך בפיתוח כלים חישוביים מתאימים למידע. מערכת מידע רפואי | איור: pandpstock001, Shutterstock

להפקיד נתונים בבנק

התפתחות הביג דאטה הובילה להגדרה מחודשת של הבנקים הביולוגיים. באופן מסורתי המונח התייחס למאגרים של רקמות ודגימות ביולוגיות, אך בשנים האחרונות הוא התרחב גם למאגרי מידע רפואי וביולוגי של אוכלוסיות גדולות. כיום יש בנקים שמשלבים סוגי מידע שונים שמאפשרים לענות על שאלות ביולוגיות מגוונות.

מעבדת סגל במכון ויצמן מגייסת בימים אלה משתתפים למחקר 10K, שצפוי להיות הבנק הביולוגי הגדול בישראל. מדובר במחקר ארוך טווח שיעקוב אחרי כ-10,000 אנשים לאורך עשר שנים, במטרה להבין את הדינמיקה של אורחות החיים והתפתחות מחלות באוכלוסייה הישראלית. החוקרים מקווים כי מעקב ארוך טווח יאפשר לזהות קשר בין חשיפה לגורמים מסוימים לבין התפתחות של מחלות. לצורך זה קבוצת המחקר מפתחת בדיקות מולקולריות שישולבו בשיטות של בינה מלאכותית המשמשות לעיבוד הנתונים ולחיזוי מצבים רפואיים עתידיים. 

מיזם ישראלי נוסף הוא טיפה למחקר של מכבי שירותי בריאות. הפרויקט שואף לקשר בין הפרופיל הגנטי ואורח החיים של אדם, לבין הסיכון שיפתח מחלות מסוימות. לשם כך מכבי מקימה בנק של דגימות ביולוגיות, כגון דם, רוק, שתן וצואה, שנאספות ממתנדבים.

לצד ההבטחה הטמונה בבנקים כאלה, חוקרים חוששים שתיווצר תופעה של "מרוב עצים לא רואים את היער". כלומר הדאגה היא שייאספו בהם כמויות נתונים עצומות אך חסרות ערך, שיסיטו את תשומת הלב מתוצאות חשובות. בנוסף, עולה החשש כי המערכת הרפואית תוצף בנתונים שיובילו לבדיקות מעקב מיותרות. ולבסוף, מערכות בריאות שירצו לנצל את עושר המידע, יצטרכו לגייס כוח אדם בעל הכשרה ויכולת לנתח אותו, וכמובן להשקיע לא מעט כסף שנחוץ גם לצרכים אחרים.

למרות החששות, התחום הולך ומתפתח, ולמעשה ישראל נחשבת למדינה המובילה בתחום. אנו צפויים לראות התפתחויות וחידושים רבים בשנים הקרובות.