צרות באות בצרורות

והפעם, חלק מהפרק "זיהוי סדר באקראיות", מתוך הספר "חשיבה חדה – בין מציאות לאשליה".

הסטודנטים שזייפו נתונים

חידה: כתרגיל בית בקורס סטטיסטיקה התבקשו הסטודנטים להטיל מטבע 200 פעמים ולרשום את תוצאות ההטלה: עץ או פלי. חלק מהם החליטו לחסוך את העבודה המתישה, ופשוט המציאו תוצאות (תוך שהם מקפידים על מספר דומה של תוצאות מכל סוג כמובן). למחרת, כשהגישו את התוצאות, העיף המרצה מבט זריז בעבודות וציין את שמות הסטודנטים שזייפו את הנתונים. הוא צדק כמעט בכל המקרים. כיצד עשה זאת?

הנה שתי רשימות לדוגמה, שבהן נקודה ועיגול מציינים את שני צדי המטבע. אחת מהן מתארת תוצאות הטלת מטבע אמיתית, והשנייה — תוצאות מומצאות. מי הרשימה האמיתית לדעתכם? העליונה או התחתונה? מדוע?

הטלות מטבע

לפני שנגלה את התשובה, הנה עוד שאלה. לפניכם שתי תבניות של נקודות. באחת מהן פוזרו הנקודות באקראי, באחרת התבנית אינה אקראית. מי היא מי?

random-dots

תבניות הנקודות הופקו באמצעות האתר http://bl.ocks.org/roryokane/4358325

נחזור להטלות המטבע ולסטודנטים הזייפנים. מה היה הטריק של המרצה? כיצד הבדיל בחטף בין הסדרות האמיתיות למזויפות?

המרצה בדק מה היה אורכו של הרצף הארוך ביותר של עץ או פלי שהופיע בתוצאות. הזייפנים נטו לא להמציא רצפים ארוכים יותר מ–4 או 5, מתוך הנחה שרצפים כאלה נדירים מכדי שיקרו בפועל. האמת המפתיעה היא, שב–200 הטלות מטבע, אירוע של 6 תוצאות זהות ברצף הוא כמעט ודאי! (96.5%), כלומר כל אלה שלא כללו רצף באורך 6 או יותר, כמעט בוודאות זייפו את התוצאות. הסיכוי לקבל 7 תוצאות זהות ברצף הוא 80%, 8 ברצף — 54%, ו–9 ברצף — 32%. במילים אחרות, אם קבוצת אנשים יטילו מטבע 200 פעמים כל אחד, יותר ממחצית מהם יתקלו ברצף של 8 תוצאות זהות.

אקראיות אין פירושה אחידות

אנו נוטים לשגות מאוד בהערכותינו בכל הקשור להסתברות ולהתנהגות של תהליכים אקראיים. אנו מצפים שתהליכים אקראיים ייראו מעורבבים בצורה אחידה הרבה יותר מאשר הם באמת, ושהמקבצים והרצפים יהיו נדירים הרבה יותר מאשר הם באמת. הנטייה לראות במקבצים תוצאה של תהליך לא אקראי נקראת אשליית המקבץ (Clustering Illusion).

בהתאם לכך, ברור כי תבנית הנקודות שמשמאל היא האקראית, ואילו בתבנית שמימין התערבו באופן מלאכותי כדי להבטיח פיזור אחיד יותר של הנקודות. דווקא מקבצים וחללים הם הדבר שיש לצפות לו. חישבו על תבנית הכוכבים בשמים — עוד דוגמה לפיזור אקראי של נקודות אור. דווקא בפיזור אקראי זה אנו מזהים בקלות קבוצות של כוכבים ומדמים אותן לצורות המוכרות לנו.

אשליית המקבץ גורמת לנו לייחס משמעויות מרחיקות לכת למקבצים ורצפים אקראיים, כאשר אנו נתקלים בהם: "אסונות באים בזוגות", "צרות באות בצרורות" — למעשה צפוי שכך יקרה. לא חייבת להיות לכך משמעות מיוחדת. יד הגורל לא חייבת להתנכל לנו באופן אישי. מקבצים הם הצפוי, לא החריג, בתבניות אקראיות.

השכונה המקוללת

הסתכלו שוב בתמונת הנקודות האקראיות, והקרינו אותה בדמיונכם על מפת גוש דן למשל. נניח כי כל נקודה מייצגת את מקום מגוריו של ילד שאובחן באוטיזם חמור. אחד המקבצים שבתמונה ייפול על שכונה מסוימת ויצביע על כך שריכוז מקרי האוטיזם בה גבוה פי כמה מהממוצע. כל זה פרי האקראיות בלבד. חישבו כמה קל ליפול כעת במלכודת המשמעויות המדומות, ולייחס סיבות מרחיקות לכת לפיזור מקרי זה. יהיו שיטילו את האשמה על מפעל פלסטיק סמוך. אחרים יאשימו את האנטנה הסלולרית הגדולה שהוצבה במרכז השכונה שנים ספורות לפני כן, וכו'. כמובן שיש לבדוק חריגות כאלה, ומובן שאולי בסופו של דבר אחת ההשערות תתגלה כנכונה, אולם עצם קיומו של ריכוז מקרים אינו מחייב סיבה. ייתכן שמדובר בתבנית אקראית בלבד. כשבודקים דיווחים על מקבצים חשודים של מקרי סרטן למשל, רק אחוזים בודדים מהם מתגלים כחריגים ביחס לצפוי. גם אחרי חקירות אפידמיולוגיות מעמיקות, הרוב המכריע של המקרים נותר ללא הסבר ודאי, והאפשרות שמדובר במקבץ אקראי לא נשללת.

יד חמה

תופעה מפורסמת יחסית היא תופעת "היד החמה" בכדורסל: שחקנים נוטים להפגין רצפים של קליעות ורצפים של החטאות. לאחר רצף של קליעות אומרים שלשחקן יש "יד חמה". רוב האנשים בטוחים כי לשחקן יש סיכויים טובים יותר לקלוע אחרי 2–3 הצלחות ברצף, מאשר לאחר 2-3 החטאות ברצף. שחקנים מעבירים את הכדור למי שיש לו "יד חמה" באותו הרגע.

אך האם אמונה זו מבוססת? האם באמת סיכויי הקליעה תלויים בתוצאות קליעות שקדמו לה? הרצפים הארוכים יחסית גורמים לנו להאמין שכן. קל לנו לחשוב על סיבות פסיכולוגיות כאלה ואחרות מדוע הדבר נכון, למשל שרצף קליעות מעלה את הביטחון העצמי ומשפר את הביצועים, ואילו רצף החטאות פוגע בביטחון העצמי ופוגע בתפקוד. אבל האם אכן רצפים אלה חורגים מהצפוי באקראי? מסתבר שלא.

עמוס טברסקי, תומס גילוביץ' ורוברט וָלוֹן בדקו כמות גדולה של תוצאות קליעות של שחקנים במשך עונה שלמה והסתבר כי אין שום חריגה מהצפוי באקראי. כשבדקו זריקות חופשיות, התגלה שכאשר הזריקה הראשונה הייתה קליעה, השנייה הייתה גם קליעה בהסתברות 75%. לעומת זאת כאשר הראשונה הייתה החטאה, השנייה הייתה קליעה בהסתברות של… 75% גם כן. כאשר הוצגו העובדות בפני שחקנים ומאמנים שמאמינים בקיום "יד חמה", הם דחו את התוצאות בטיעונים שונים ומגוונים. גם חוקרים אחדים פקפקו במחקרים והעלו ביקורות שונות על הטיות אפשריות במחקר. קוהלר וקונלי פרסמו מחקר נוסף שהביא בחשבון את הביקורות, בו ניתחו החוקרים תוצאות מארבע תחרויות קליעה של ה–NBA. גם הפעם לא נמצאה תמיכה לאמונה ב"יד חמה", כלומר, סיכוי כל קליעה אינו תלוי בתוצאות שקדמו לה. מדובר במיתוס אחרי הכול; הדגמה קלאסית של מציאת משמעות במקבץ אקראי.

חוכמה לאחר מעשה

נקודה חשובה נוספת בקשר למקבצים היא הנטייה שלנו "להקיף" מקבץ אירועים בדיעבד, ולהתרשם כי הסיכוי שאירוע כזה יתרחש הוא אפסי.

נחזור לרגע להטלת המטבעות. אם אני מטיל מטבע 8 פעמים, מה הסיכוי שבכולן הוא ייפול על אותו הצד? הסיכוי קטן מ–1% (1/128 ליתר דיוק). אבל מה הסיכוי שמתוך 200 הטלות נקבל רצף של 8 תוצאות זהות? כפי שכבר הזכרנו, למעלה מ–50%. כלומר הסיכוי לרצף של 8 תוצאות זהות במקום מסוים בסדרה הוא קטן מאוד, אבל רצף כזה במקום כלשהו בסדרה ארוכה של ניסיונות הוא אירוע סביר ביותר. אם לא מגדירים מראש מתי בדיוק מצפים לרצף שכזה, הסיכוי להיתקל בו גדול מאוד.

*

מוזמנים להביא בתגובות דוגמאות היסטוריות מתועדות למקבצי גורל/מזל מפתיעים. 

*

עוד על  זיהוי סדר באקראיות ועל שלל נושאים נוספים, תוכלו לקרוא בספר "חשיבה חדה – בין מציאות לאשליה".  לעיון בתוכן העניינים והמבוא לחצו כאן.

מה קוראים אחרים חשבו על הספר?

 

23 מחשבות על “צרות באות בצרורות

  1. חוק בנפורד סותר את האינטואיציה (שלי לפחות) באשר לספרה הראשונה של נתונים כמותיים במגוון רחב מאוד של תופעות : שטחי דלתא של נהרות, מספרים בעמודי העיתונים, מספר התושבים בערים שונות, מספרים במאזני חברות, ערך מניה בבורסה חשבונות חשמל ועוד .
    ההסתברות שהספרה הראשונה של המספר תהיה 1 היא כ- 30% (ולא 1/9 – כמניין הספרות 1 עד 9).
    עוד על החוק ניתן לקרוא למשל כאן :
    http://he.wikipedia.org/wiki/%D7%97%D7%95%D7%A7_%D7%91%D7%A0%D7%A4%D7%95%D7%A8%D7%93

    אהבתי

    • חוק בנפורד "נתקל" באחרונה בחריגה – תחום האלגוטריידינג השפיע על המימוש של חוק בנפורד במניות, מאחר והגורם האנושי בקביעת המחיר האפקטיבי של המנייה (mid price או ה last trade price) דעך (כיום מעריכים שמעל ל 85% מנפח המסחר בבורסאות הגדולות הוא מסחר מכונות).
      ברגע שהמכונות נכנסו לעניין, פיזור הספרה הראשונה השתנה (אחרת מישהו היה עושה מזה כסף)

      אהבתי

    • מעניין. תודה על המידע! קראתי את המאמר בעברית, וריפרפתי על שני המאמרים של החוקרים.
      מהתקציר של השני:
      "we were able to demonstrate that there are, indeed, significant fluctuations from game to game for the same player but there is no clustering of successes (strikes) and failures (non strikes) within each game. Thus we were lead to the conclusion that bowling results show correlation to recent past results but they are not influenced by them in a causal manner."

      וזה מקבל חיזוק במקומות נוספים, כלומר, אם אני מבין נכון, לא מדובר באמת על "יד חמה" במובן של "אם הוא קלע טוב מהממוצע שלו בדקות האחרונות, הוא יקלע טוב מהממוצע גם בדקות הבאות" – שזה לפחות מה שאני הבנתי שמדובר בו, וגם אין ראיות לכך שקיים קשר סיבתי בין הצלחות קודמות לבאות, או בין כשלונות קודמים לבאים, כלומר כל ההסברים הפסיכולוגיים אינם נדרשים, כי עדיין אין ראיות לכך שתופעה כזאת מתרחשת.
      מה שהם מצאו, אם אני מבין נכון, זה שפשוט יש תנודות תקופתיות בביצועים של כל שחקן. ולכן, כשהוא בתקופה טובה יותר, ההסתברות שלו לקלוע מעט גבוהה יותר, וכשהוא בתקופה פחות טובה – ההסתברות לקליעה נמוכה יותר, ובתוך אותה תקופה, זה עדיין יתנהג באקראי.
      הבנתי נכון?
      ושאלה נוספת שלא ממש מצאתי לה תשובה – מה גודל האפקט שמדובר בו? כלומר, נניח במונחים של סיכוי קליעה – מה התנודות התקופתיות? והאם סביר שאוהדים / מאמנים יחושו בהבדלים האלה ללא ניתוחים סטטיסטיים מדויקים?

      אהבתי

  2. ניטפוק: אם יש 100 סטודנטים בקורס ונניח שסדר גודל של חצי מהם מזייפים את התוצאה, מבחן עם שולי שגיאה של 96.5% לא מספיק כדי לפסול עבודה.

    אהבתי

  3. עוד דוגמא שאולי קשורה – שיטת ההכפלות ברולטה.
    זה שיטה שבה מהמרים או על האדום או על השחור, וכאשר מפסידים מכפילים את סכום ההימור, זאת אומרת נהמר 1$ על האדום אם נפסיד נהמר 2$ על האדום שוב נפסיד אז 4$ וכך הלאה, אם יצא אדום ונרוויח נחזור להמר על 1$, ואז כל עוד לא יוצא רצף של הרבה שחורים נרוויח בוודאות. לרוב מי שלא מתמצא ושומע עליה חושב שהיא מביאה לרווח בטוח, כי מה כבר הסיכוי שיצא המון פעמים ברצף שחור. אבל כאמור כשאשר עושים זאת הרבה פעמים הרצף מתישהו מגיע וזה למעשה אמור מבחינה סטטיסטית לקרות.
    עוד הימור שמהווה טעות בתפיסה זה כשמחכים לרצף של למשל 5 שחורים כדי להמר על האדום, כי כביכול יש פחות סיכוי שיהיה רצף כל-כך גבוה של אותו צבע, אבל כמובן שיש את אותו הסיכוי בסיבוב מסוים שיצא אדום או שחור והוא לא תלוי בתוצאות הקודמות.

    אהבתי

  4. לא זוכר אם שמעתי או קראתי (ואיפה), אבל נתקלתי בטענה הבאה:
    לאחר הצלחה קיימת נטייה 'לנוח על זרי הדפנה', המתבטאת בהגברת הסלידה מסיכונים – כתוצאה מכך יש יותר סיכויי הצלחה (למשל קולעים ממרחק קרוב יותר לסל, כשיש פחות לחץ הגנתי וכו').
    לעומת זאת לאחר כישלון קיימת נטייה 'לפצות' מייד, המתבטאת בהגברת הנטייה ללקיחת סיכונים – כתוצאה מכך יש פחות סיכויי הצלחה (למשל קולעים ממרחק רב, מול מגן חזק וכו').
    אם יש ממש בטענה זו, אני מצפה (פרט להבדל באחוזי הצלחה בנסיונות הבאים, שכאמור מוטל בספק) להבדל בר מדידה בין הזמן הממוצע העובר בין הצלחה לניסיון הבא, לבין הזמן הממוצע העובר בין כישלון לניסיון הבא.

    אהבתי

  5. לפחות שלושים שנה עברו מאז שמעתי בפעם האחרונה את השיר "מכה על חטא" של הנריק ("צביקה") פיק. נזכרתי בו אחרי הבחירות, ביום שבו נתניהו "התנצל" בפני הערבים על אתם יודעים מה.

    עם האינטרנט וגוגל ויוטיוב, תוך שניה השיר כמובן התנגן לי ואף נהניתי ממנו.

    שלוש שעות אחרי זה, חברה בפייסבוק: "יש שיר שבזמן האחרון אני מאוד אוהבת לנגן בפסנתר. שיר ישן של צביקה פיק…" 😉

    לרגע קל חשתי את ההשתאות והיראה שנגרמים לאנשים לנוכח צירופי מקרים שכאלה…

    אהבתי

  6. 1.איך חישבת את ההסתברות של ארוע של 6 תוצאות ברצף מ-200 זריקות ( 96% ) ?
    2.אם אני זוכר נכון אתה תושב אזור חיפה. לפי פרסומים, שיעור חולי הסרטן שם הוא הגבוה בארץ (כנראה בגלל הזיהום שמייצרות חברות האנרגייה והכימיה שפועלות שם). האם זה גם אקראי ?
    3.פחות אהבתי שאתה ממליץ על ספרים שמחברם המליץ על שלך ….

    אהבתי

  7. בויקיפדיה ישנם 2 דוגמאות קלאסיות הראשונה מצחיקה עד כמעת מוות https://he.wikipedia.org/wiki/%D7%93%D7%90%D7%95%D7%9F_%D7%92%D7%99%D7%9E%D7%9C%D7%99
    שזהו המקרה של דאון גימלי – צרוף מקרים של מזל רע ביום אחד בסיטואציה אחת שקשה להאמין שזה באמת קרה. ( אבל עד כה עושה הרושם שכן..)

    המקרה השני- שהוא עוד יותר מרתק לעניין חשיבה חדה הוא המקרה הזה של אליסה לאם – שהוא מיוחד בכך שהוא לא רק מחבר צרופי מקרים מוזרים (בהנחה שהכל אמיתי ) (וכולם מעולם המיתוסים וסרטי האימה )הוא לעניננו כבר קלאסי בכך שמדובר עדיין בתעלומה אם הסברים ממגוון עצום של אסכולות ותת אסכולות.

    אם תבדקו את עניין המעלית ביוטיוב (שוב בהנחה שלא מדובר בזיוף ) – יש לנו מציאות אוביקטיבית ומגוון פרשניות החל מסטטיסקה מקרית עד אבחונים רפואיים מול אבחונים של אלה שמאמנים בכוחות אפלים. אם כי גם ההסברים המדעיים שעל הקרקע לא מתישבים עם העובדות האחרות שהיו בשטח.

    למרות כל הנ'ל עדיין נשאלת השאלה למה להעדיף את ההסברים מסטיים במקרה זה על הסברים רציונליים.
    מקרה המעלית ממחיש את העניין שיש מציאות אוביקטיבית אחת ואף די משעממת – אבל ההקשר לסיפור הגדול משנה בבת אחת את האינפורמציה והפרוש של מה שכל הצופים ראו . שווה לדעתי לעשות ניסויים שכאלה ולהקרין תחילה את הסרט של המעלית ולשאול מה ראיתם בתמונה ומה ההסבר של מה שראיתם.

    בקיצור כשקורה לכם חוויות שכאלה השאלה מי צריך להזמין קודם- את מפצחי השדים או את הסטטסטיקאים 😉

    אהבתי

    • לעניין דאון גימלי: אם לא היה אוסף של כמה תקלות, לא הייתה בעיה ולא היינו שומעים על זה. בענף התעופה יש מקדמי בטיחות גבוהים וצריכים לקרות כמה כשלים כדי שתתרחש תאונה (לכן הם חוקרים שם גם מה שנקרא „כמעט תאונות״).

      אהבתי

  8. וואו, המקרה של אליסה לאם הוא קריפי!! לא שמעתי עליו עד היום. הסרט מפחיד. אפשר לגמרי להבין איך המקרה הזה יכול לגרום לאנשים להאמין ברוחות.

    אהבתי

  9. "אשליית המקבץ גורמת לנו לייחס משמעויות מרחיקות לכת למקבצים ורצפים אקראיים… לא חייבת להיות לכך משמעות מיוחדת… מקבצים הם הצפוי, לא החריג, בתבניות אקראיות.". הנתונים המוצגים כי המקבץ הוא תופעה צפויה, אנם פוסלים את העובדה כי למקבץ יכולה להיות סיבה מיוחדת. לאו דווקא הסיבה המיסטית או הדתית שרבים מאיתנו מספקים באופן אינטואיטיבי, אבל בהחלט ייתכן ולמקבצים יש מאפיינים מסוימים הנובעים מסיבות מאוד קונקרטיות. הגישה המיסטית הדתית והצורך של רבים מהחושבים המדעיים להשקיע מאמצים בהפרכת הסיבה המיסטית מונעת מאיתנו להשקיע את המשאבים הנדרשים בערוצי החקירה המסבירים מקבצים. כיוון שמקבצים יוצרים אצלנו הטיה פסיכולוגית, הם בעלי חשיבות גדולה. ייתכן ומחקר מדעי לוגי בנושא הסיבות למקבצים (לא סטטיסטי דווקא ולא "רוחני") יוכל ליצור קפיצה התפתחותית מדעית גדולה.

    אהבתי

כתיבת תגובה