כאשר עורכים ניסוי, בין אם מדובר במחקר מולקולרי של חיידקים או תאים, ניסוי בתרופות או אפילו מחקר התנהגותי בבני אדם, אנו שואפים לתאר את התוצאות במשוואה מתמטית כמה שיותר פשוטה, שממנה נוכל להסיק מסקנות על הקשר בין נושא הניסוי (טיפול רפואי, מודל התנהגותי וכו') לבין מושא הניסוי (מטופלים, תאים וכו'). לצערנו הרב, התוצאות לא מתיישבות לרוב בצורה מושלמת עם משוואה יפה ונחמדה, וצריך גם לקבל הנחות מסוימות ולהתאים לאוסף הנתונים שלנו גרף שמידת ההתאמה שלו תהיה סבירה.

היישומון שלפנינו ממחיש איך מתאימים גרף לאוסף נתונים. לצפייה ביישומון לחצו על התמונה ופתחו את הקובץ המקושר (יישומון ג'אווה).



היישומון הופק במסגרת פרויקט PhET של אוניברסיטת קולורדו
להורדת היישומון ולהרצתו על המחשב לחצו כאן
אם אינכם מצליחים להעלות את היישומון, התקינו את תוכנת Javaweb. לחצו כאן והתקינו לפי ההוראות.

לפני שנתחיל להשתעשע ביישומון, נתאר מה אנו רואים במסך: יש לנו שני צירים (x ו-y) שבהם נציב את נקודות הנתונים שלנו. כל ציר יכול לייצג כל משתנה שנרצה: זמן, ריכוז של חומר, ציון במבחן וכן הלאה. בניסויים נהוג לנסות למצוא קשר בין שני פרמטרים, למשל השפעת ריכוז האנטיביוטיקה על הזמן שלוקח לדלקת חיידקית לעבור, השפעת כמות שעות הלימוד על ציונים במבחן וכו'. חשוב מאוד להגדיר מהו כל ציר ומהן היחידות שלו (זמן בשניות, ציון באחוזים, ריכוז בגרם לליטר וכו').

בצד ימין למעלה נמצא סל עם כדורים. כל כדור הוא נקודה שאפשר להניח על הלוח כנתון. למשל אם ציר x מייצג זמן, וציר y מייצג ריכוז, ואם תצפית של 3 גרם לליטר אנטיביוטיקה גורמת לדלקת לעבור בתוך 2 ימים, הנקודה שנציב בגרף תהיה x=2, y=3 או (2,3). שימו לב למקלות כחולים מעל לנקודה ומתחתיה. בניסוי עושים בדרך כלל כמה חזרות על כל תצפית כדי לוודא שלא מדובר בטעות דגימה, כך שהמקלות מייצגים את שיעור שגיאת הדגימה. שגיאת דגימה אפשר לחשב בנוסחה פשוטה יחסית, אולם לצורך הנוחות נתעלם ממנה לעת עתה.

מצד ימין מופיעות כמה אפשרויות לגרפים ממעלות 4-1, כלומר גרף לינארי, גרף ריבועי וכן הלאה. במציאות יש סוגים רבים של גרפים שאפשר להתאים לנתונים, ולכל אחד מהם יש משמעות מדעית אחרת, אולם כדי להעביר את המסר נשתמש בעת ההדגמה בגרפים מהמעלה הראשונה והשנייה בלבד (לינארי וריבועי). אם תרצו לשחק בגרפים מסוגים נוספים תוכלו לעשות זאת בעזרת תוכנת האקסל או כל תוכנה סטטיסטית אחרת שקיימת במחשב שלכם. היישומון יכול לחשב את הגרף המתאים ביותר לנתונים שהכנסתם, או שאתם יכולים לשחק עם המשתנים להשגת התאמה מירבית.

מצד שמאל נמצא ציר שחור שכתוב עליו Χ²r (חי בריבוע) פרמטר שמייצג את מידת ההתאמה של הנתונים שלנו לגרף על פי מבחן חי בריבוע. השאיפה היא לקבל ערך נמוך ככל האפשר (קטן מאחד) שימו לב שערך נמוך מדי עלול לתת התאמה "טובה מדי", שיכולה להעיד על שגיאה נמוכה מדי במדגם. בכל מדגם קיימות סטיות שמעידות שזו מערכת מדגמית. תוצאות "טובות מדי" עלולות להעיד שהתוצאות זויפו (לתשומת לבו של כל מי ששוקל לשתול תוצאות במדגם כדי לייפות אותו).

למטה בכתב אדום נמצאת נוסחת הגרף ולידה פרמטר בשם R² שמראה גם הוא את טיב ההתאמה של הנתונים לגרף על פי דבר שנקרא "רווח בר-סמך". לצורך העניין רצוי שהערך שלו יהיה קרוב כמה שיותר ל-1 (0.95 ומעלה).

כעת בואו ניגש לעניין. הציבו את הנקודות (0,0), (1,1), (2,2), ו-(3,3) ונסו להתאים את הגרף הלינארי. האם ההתאמה טובה? כעת הוסיפו את הנקודה (5,6). מה קרה להתאמה? האם לדעתכם הגרף עדיין מתאים? הוסיפו גם את הנקודה (8,16) האם לדעתכם משוואה לינארית מתאימה לתיאור הנתונים שלנו? ואם תשנו את שגיאת הדגימה (מקלות כחולים) בנקודה האחרונה לΔy=10, מה יקרה? מדוע לדעתכם ההתאמה פתאום טובה? מה אתם מסיקים מכך על החשיבות של שגיאת הדגימה?

נקו את הגרף ושימו את הנקודות (0,0), (1,1), (2,4), (3,9). נסו לעשות התאמה לינארית. האם יש לכם התאמה טובה? האם משחק עם שגיאת הדגימה משפר משהו? הוסיפו את הנקודות (1,1-), ו-(3,9-). האם עדיין יש לכם ספק לגבי טיב ההתאמה? האם אפשר לתקן את זה עם שגיאת הדגימה? האם נכון לעשות זאת במקרה הזה? כעת נסו לראות אם גרף מהמעלה השנייה (גרף ריבועי) מתאים. מה דעתכם עכשיו?

ביישומון הזה טעמנו על קצה המזלג מניתוח התוצאות שעושים מדענים. במציאות התלות אמנם לא פשוטה ונחוץ מדגם גדול יחסית כדי לקבל התאמה טובה, אך התוכנות שאיתן אנחנו עובדים יודעות לזהות את ההתאמה הטובה ביותר, כך "שהייאוש נעשה יותר נוח".

במדגם אמיתי כדאי לקחת כמה שיותר דוגמאות, כדי לאפשר התאמה מציאותית יותר (לצורך העניין שתי תצפיות תמיד יתנו תלות לינארית מושלמת למה לדעתכם?) מצד שני גם רצוי לחזור על תצפיות כמה שיותר כדי לצמצם למינימום את סטיית המדגם. אתם מוזמנים לשחק ביישומון הזה ולנסות גם להתאים את הגרף בעצמכם בעזרת "התאמה מתכווננת".

שאלה למחשבה: אם תקחו נתונים שמצייתים לעקומה לינארית ותנסו להתאים לה גרף ריבועי, עדיין תקבלו התאמה יפה. מדוע זה קורה לדעתכם? האם נכון להתאים לנתונים מראש גרף מהמעלה הכי גבוהה שאפשר בשביל "ללכת על בטוח"? 

ארז גרטי
המחלקה לכימיה ביולוגית
מכון ויצמן למדע



הערה לגולשים
אם אתם חושבים שההסברים אינם ברורים מספיק או אם יש לכם שאלות הקשורות לנושא, אתם מוזמנים לכתוב על כך בפורום ואנו נתייחס להערותיכם. הצעות לשיפור וביקורת בונה יתקבלו תמיד בברכה.