חוקרים מהטכניון ומהמרכז הבינתחומי פיתחו שיטה קומפקטית במיוחד לאחסון מידע דיגיטלי ברצפים של חומר גנטי

דמיינו שיכולתם לשמור את כל המידע שקיים ביוטיוב בכפית אחת. חוקרים מהטכניון ומהמרכז הבינתחומי בהרצליה פיתחו שיטה יעילה במיוחד לאחסון מידע דיגיטלי, המשתמשת ב-DNA כאמצעי האחסון. בתוך גרם אחד של חומר גנטי אפשר לשמור עד עשרה פטה-בייט של מידע (10 מיליון גיגה-בייט).

התקני פלאש המבוססים על טרנזיסטורים, כמו דיסק-און-קי, מאחסנים מידע בתוך שכבה שאפשר לטעון בה אלקטרונים או לפרוק אותם ממנה. הצפיפות הגבוהה של ה-DNA, לעומת זאת, מאפשרת לאחסן בו יותר מידע ליחידת נפח. כמו כן, כוננים קשיחים או זיכרונות פלאש אינם יציבים במיוחד ועלולים לאבד מידע כשחושפים אותם למשל לשדה מגנטי חזק, על כן אורך החיים שלהם נאמד ב-100-10 אלף תהליכי כתיבה לכל היותר, וכ-8.6 אחוזים מהם יתקלקלו תוך שלוש שנים. בניגוד לכך, מולקולת ה-DNA יציבה מאוד ויכולה לשמור מידע למשך מאות או אלפי שנים.

השיטה הישירה

מידע דיגיטלי מיוצג כקוד בינארי, המורכב מהספרות 0 ו-1. אפשר להמיר אותו בעזרת אלגוריתם לפלט שמורכב מנוקלאוטידים (בסיסים): ארבע אבני הבניין של ה-DNA, המיוצגות על ידי האותיות A,C,G,T. בשנים האחרונות פותחו טכנולוגיות של סינתזת DNA, שמאפשרות להרכיב רצפי נוקלאוטידים על פי בחירתנו.

בעבר, כשרצו לאחסן מידע ב-DNA המירו את הקוד הבינארי ישירות. לדוגמה במקום הספרות 11 הציבו במולקולה G, ובמקום 01 שמו A. כך תרגמו את המידע הבינארי לרצף של אותיות, וייצרו את ה-DNA המתאים לאחסון המידע.

מכיוון שבתהליך הזה עלולות להתרחש טעויות (למשל G במקום T באחד המקומות), לא מסתפקים בשרשרת רצף אחת, אלא מייצרים מאות ואף אלפי רצפים זהים, ובסוף סוכמים אותם והטעויות נבלעות. כשרוצים לאחר מכן להשתמש במידע המאוחסן, קוראים אותו מה-DNA באמצעות ריצוף DNA.

שאלה של יחסים בין הבסיסים. יכיני (משמאל), עם חברי צוות המחקר, רועי עמית, ענבל וקנין וליאון ענבי | צילום: רמי שלוש, דוברות הטכניון
שאלה של יחסים בין הבסיסים. יכיני (משמאל), עם חברי צוות המחקר, רועי עמית, ענבל וקנין וליאון ענבי | צילום: רמי שלוש, דוברות הטכניון

צופן מרוכב

בשיטה החדשה שפיתח צוות המחקר של פרופ' זהר יכיני מהטכניון ומהמרכז הבינתחומי, במקום לקודד את המידע בצורה ישירה, כך שכל אות מייצגת רצף של שתי ספרות בינאריות, לוקחים רצפים של שמונה ספרות בינאריות וממירים אותן ליחס בין ארבע האותיות. לכל רצף של שמונה ספרות קובעים שרירותית יחס מסוים בין הבסיסים. נניח למשל שקבענו שהרצף הבינארי 00110000 מיוצג על ידי יחס של 60 אחוז C, עוד 40 אחוז G, ואפס אחוז A או T. ניצור קטע של DNA שהיחס בין הבסיסים בו 40-60-0-0, ובעת הפענוח המחשב יספור את הבסיסים בקטע הנבחר ויחליף אותם מחדש ברצף הבינארי המקורי.

באופן דומה נוכל לקבוע שאת הרצף הבינארי 11001010 מייצג מקטע DNA שכולל 15 אחוז C, ועוד 25 אחוז G, ועוד 40 אחוז A ו-20 אחוז T. סדר הבסיסים במקטע אינו חשוב, כך שכל מקטע נבחר עם שיעור הבסיסים הזה בדיוק יפוענח כ-11001010. וכיוון שבחרנו מראש את יחסי הבסיסים כך שלא יהיו שניים דומים מדי זה לזה, אפשר להתעלם מסטיות קטנות שייגרמו מטעויות, כך שאם יש רק 14 אחוז C בדוגמה האחרונה, עדיין נדע שמדובר באותו רצף בינארי.

גם טכנולוגיות חדשות לריצוף DNA, כלומר לקריאת רצף האותיות, מייעלות מאוד את התהליך. לעומת הטכנולוגיות הישנות, שקראו 2.1 מיליון בסיסי DNA ביממה, טכנולוגיות חדשות מצליחות לקרוא 8 מיליארד בסיסים באותו פרק זמן. הגורם העיקרי שעדיין מגביל את יכולתנו להחליף את הכוננים הרגילים באמצעי אחסון מבוססי-DNA הוא היכולת שלנו לייצר את המולקולות, כלומר לבצע סינתזת DNA מהירה ונקייה משגיאות.

היתרון של השיטה החדשה הוא שמכיוון שמקודדים יותר מידע בכל נוקלאוטיד, אפשר ליצור רצפי DNA קצרים יותר. בנוסף, בסימולציה שבה השתמשו ביחסים נוספים בין בסיסי DNA, הראו החוקרים כי אפשר לחסוך עד 75 אחוז משלבי הסינתזה בהשוואה לשיטות האחסון הישנות, וכאמור גם לנטרל שגיאות ברצף ה-DNA בלי צורך בהרבה חזרות כפי שנעשה בשיטה הישנה.

מאחר שקצב יצירת המידע גדל בכל יום, החוקרים צופים כי כבר בשנה הבאה אדם ממוצע ייצור כ-1.7 מגה-בייט של מידע בשנייה, ואת המידע הזה צריך לאחסן. שמירת המידע על DNA יעילה יותר בשישה סדרי גודל לעומת התקני האחסון הקיימים, מבחינת כמות המידע שאפשר לדחוס ביחידת נפח. אחרי הכול, הטבע כבר שכלל את דרכי העברת המידע הגנטי מדור לדור באמצעות ה-DNA, כך שנראה שאין מתאים ממנו לאחסון המידע הדיגיטלי שמפיק האדם המודרני.