צרות באות בצרורות

צרות באות בצרורות

והפעם, חלק מהפרק "זיהוי סדר באקראיות", מתוך הספר "חשיבה חדה – בין מציאות לאשליה".

הסטודנטים שזייפו נתונים

חידה: כתרגיל בית בקורס סטטיסטיקה התבקשו הסטודנטים להטיל מטבע 200 פעמים ולרשום את תוצאות ההטלה: עץ או פלי. חלק מהם החליטו לחסוך את העבודה המתישה, ופשוט המציאו תוצאות (תוך שהם מקפידים על מספר דומה של תוצאות מכל סוג כמובן). למחרת, כשהגישו את התוצאות, העיף המרצה מבט זריז בעבודות וציין את שמות הסטודנטים שזייפו את הנתונים. הוא צדק כמעט בכל המקרים. כיצד עשה זאת?

הנה שתי רשימות לדוגמה, שבהן נקודה ועיגול מציינים את שני צדי המטבע. אחת מהן מתארת תוצאות הטלת מטבע אמיתית, והשנייה — תוצאות מומצאות. מי הרשימה האמיתית לדעתכם? העליונה או התחתונה? מדוע?

הטלות מטבע

לפני שנגלה את התשובה, הנה עוד שאלה. לפניכם שתי תבניות של נקודות. באחת מהן פוזרו הנקודות באקראי, באחרת התבנית אינה אקראית. מי היא מי?

random-dots

תבניות הנקודות הופקו באמצעות האתר http://bl.ocks.org/roryokane/4358325

נחזור להטלות המטבע ולסטודנטים הזייפנים. מה היה הטריק של המרצה? כיצד הבדיל בחטף בין הסדרות האמיתיות למזויפות?

המרצה בדק מה היה אורכו של הרצף הארוך ביותר של עץ או פלי שהופיע בתוצאות. הזייפנים נטו לא להמציא רצפים ארוכים יותר מ–4 או 5, מתוך הנחה שרצפים כאלה נדירים מכדי שיקרו בפועל. האמת המפתיעה היא, שב–200 הטלות מטבע, אירוע של 6 תוצאות זהות ברצף הוא כמעט ודאי! (96.5%), כלומר כל אלה שלא כללו רצף באורך 6 או יותר, כמעט בוודאות זייפו את התוצאות. הסיכוי לקבל 7 תוצאות זהות ברצף הוא 80%, 8 ברצף — 54%, ו–9 ברצף — 32%. במילים אחרות, אם קבוצת אנשים יטילו מטבע 200 פעמים כל אחד, יותר ממחצית מהם יתקלו ברצף של 8 תוצאות זהות.

אקראיות אין פירושה אחידות

אנו נוטים לשגות מאוד בהערכותינו בכל הקשור להסתברות ולהתנהגות של תהליכים אקראיים. אנו מצפים שתהליכים אקראיים ייראו מעורבבים בצורה אחידה הרבה יותר מאשר הם באמת, ושהמקבצים והרצפים יהיו נדירים הרבה יותר מאשר הם באמת. הנטייה לראות במקבצים תוצאה של תהליך לא אקראי נקראת אשליית המקבץ (Clustering Illusion).

בהתאם לכך, ברור כי תבנית הנקודות שמשמאל היא האקראית, ואילו בתבנית שמימין התערבו באופן מלאכותי כדי להבטיח פיזור אחיד יותר של הנקודות. דווקא מקבצים וחללים הם הדבר שיש לצפות לו. חישבו על תבנית הכוכבים בשמים — עוד דוגמה לפיזור אקראי של נקודות אור. דווקא בפיזור אקראי זה אנו מזהים בקלות קבוצות של כוכבים ומדמים אותן לצורות המוכרות לנו.

אשליית המקבץ גורמת לנו לייחס משמעויות מרחיקות לכת למקבצים ורצפים אקראיים, כאשר אנו נתקלים בהם: "אסונות באים בזוגות", "צרות באות בצרורות" — למעשה צפוי שכך יקרה. לא חייבת להיות לכך משמעות מיוחדת. יד הגורל לא חייבת להתנכל לנו באופן אישי. מקבצים הם הצפוי, לא החריג, בתבניות אקראיות.

השכונה המקוללת

הסתכלו שוב בתמונת הנקודות האקראיות, והקרינו אותה בדמיונכם על מפת גוש דן למשל. נניח כי כל נקודה מייצגת את מקום מגוריו של ילד שאובחן באוטיזם חמור. אחד המקבצים שבתמונה ייפול על שכונה מסוימת ויצביע על כך שריכוז מקרי האוטיזם בה גבוה פי כמה מהממוצע. כל זה פרי האקראיות בלבד. חישבו כמה קל ליפול כעת במלכודת המשמעויות המדומות, ולייחס סיבות מרחיקות לכת לפיזור מקרי זה. יהיו שיטילו את האשמה על מפעל פלסטיק סמוך. אחרים יאשימו את האנטנה הסלולרית הגדולה שהוצבה במרכז השכונה שנים ספורות לפני כן, וכו'. כמובן שיש לבדוק חריגות כאלה, ומובן שאולי בסופו של דבר אחת ההשערות תתגלה כנכונה, אולם עצם קיומו של ריכוז מקרים אינו מחייב סיבה. ייתכן שמדובר בתבנית אקראית בלבד. כשבודקים דיווחים על מקבצים חשודים של מקרי סרטן למשל, רק אחוזים בודדים מהם מתגלים כחריגים ביחס לצפוי. גם אחרי חקירות אפידמיולוגיות מעמיקות, הרוב המכריע של המקרים נותר ללא הסבר ודאי, והאפשרות שמדובר במקבץ אקראי לא נשללת.

יד חמה

תופעה מפורסמת יחסית היא תופעת "היד החמה" בכדורסל: שחקנים נוטים להפגין רצפים של קליעות ורצפים של החטאות. לאחר רצף של קליעות אומרים שלשחקן יש "יד חמה". רוב האנשים בטוחים כי לשחקן יש סיכויים טובים יותר לקלוע אחרי 2–3 הצלחות ברצף, מאשר לאחר 2-3 החטאות ברצף. שחקנים מעבירים את הכדור למי שיש לו "יד חמה" באותו הרגע.

אך האם אמונה זו מבוססת? האם באמת סיכויי הקליעה תלויים בתוצאות קליעות שקדמו לה? הרצפים הארוכים יחסית גורמים לנו להאמין שכן. קל לנו לחשוב על סיבות פסיכולוגיות כאלה ואחרות מדוע הדבר נכון, למשל שרצף קליעות מעלה את הביטחון העצמי ומשפר את הביצועים, ואילו רצף החטאות פוגע בביטחון העצמי ופוגע בתפקוד. אבל האם אכן רצפים אלה חורגים מהצפוי באקראי? מסתבר שלא.

עמוס טברסקי, תומס גילוביץ' ורוברט וָלוֹן בדקו כמות גדולה של תוצאות קליעות של שחקנים במשך עונה שלמה והסתבר כי אין שום חריגה מהצפוי באקראי. כשבדקו זריקות חופשיות, התגלה שכאשר הזריקה הראשונה הייתה קליעה, השנייה הייתה גם קליעה בהסתברות 75%. לעומת זאת כאשר הראשונה הייתה החטאה, השנייה הייתה קליעה בהסתברות של… 75% גם כן. כאשר הוצגו העובדות בפני שחקנים ומאמנים שמאמינים בקיום "יד חמה", הם דחו את התוצאות בטיעונים שונים ומגוונים. גם חוקרים אחדים פקפקו במחקרים והעלו ביקורות שונות על הטיות אפשריות במחקר. קוהלר וקונלי פרסמו מחקר נוסף שהביא בחשבון את הביקורות, בו ניתחו החוקרים תוצאות מארבע תחרויות קליעה של ה–NBA. גם הפעם לא נמצאה תמיכה לאמונה ב"יד חמה", כלומר, סיכוי כל קליעה אינו תלוי בתוצאות שקדמו לה. מדובר במיתוס אחרי הכול; הדגמה קלאסית של מציאת משמעות במקבץ אקראי.

חוכמה לאחר מעשה

נקודה חשובה נוספת בקשר למקבצים היא הנטייה שלנו "להקיף" מקבץ אירועים בדיעבד, ולהתרשם כי הסיכוי שאירוע כזה יתרחש הוא אפסי.

נחזור לרגע להטלת המטבעות. אם אני מטיל מטבע 8 פעמים, מה הסיכוי שבכולן הוא ייפול על אותו הצד? הסיכוי קטן מ–1% (1/128 ליתר דיוק). אבל מה הסיכוי שמתוך 200 הטלות נקבל רצף של 8 תוצאות זהות? כפי שכבר הזכרנו, למעלה מ–50%. כלומר הסיכוי לרצף של 8 תוצאות זהות במקום מסוים בסדרה הוא קטן מאוד, אבל רצף כזה במקום כלשהו בסדרה ארוכה של ניסיונות הוא אירוע סביר ביותר. אם לא מגדירים מראש מתי בדיוק מצפים לרצף שכזה, הסיכוי להיתקל בו גדול מאוד.

*

מוזמנים להביא בתגובות דוגמאות היסטוריות מתועדות למקבצי גורל/מזל מפתיעים. 

*

עוד על  זיהוי סדר באקראיות ועל שלל נושאים נוספים, תוכלו לקרוא בספר "חשיבה חדה – בין מציאות לאשליה".  לעיון בתוכן העניינים והמבוא לחצו כאן.

מה קוראים אחרים חשבו על הספר?