אהבה, שפעת ומותה של השיטה המדעית – על Big Data

ביג דאטא ומותה של השיטה המדעית - רן לוי

כתב: רן לוי

מגוגל ועד ל-NSA, כל ארגון המכבד את עצמו אוגר ומטפל, בימינו, בכמויות בלתי נתפסות של מידע: משיחות טלפון מוקלטות ועד הרגלי הקניה של לקוחותיו. אחד האתגרים הגדולים של טיפול ב-Big Data הוא מיצוי תובנות ומסקנות מעשיות מתוך הררי המידע הזמינים. כדי לעשות כן, ייתכן ועל המדענים לזנוח הרגלים ושיטות בנות מאות שנים, ולתת למחשב לחשוב בעצמו…האם Big Data תביא את סופה של השיטה המדעית?


מאמר זה לקוח מתוך הפודקאסט 'עושים היסטוריה'. האזן לפודקאסט כאן:

הורד למחשב (mp3)

הרשמה לפודקאסט: רשימת תפוצה במיילiTunes | אפליקציית 'עושים היסטוריה' לאנדרואיד | RSS Link | פייסבוק | טוויטר


ביוני 2013 הדליף אדוארד סנודן, עובד לשעבר של סוכנות הביון האמריקנית, ה-NSA, מידע רב אודות תוכניות הריגול המסווגות של הארגון. הפרטים שחשף סנודן אודות תוכניות הריגול – ובעיקר היקפן יוצא הדופן – הציתו ויכוח ציבורי סוער בארצות הברית. ה-NSA לא הסתפק באיסוף מידע אודות טרוריסטים ופושעים פוטנציאליים, אלא ריגל ועקב אחר כמעט כל אזרחי ארצות הברית – ולמעשה אחר כמעט כל משתמשי האינטרנט באשר הם. כמעט כל שיחה בטלפון הסלולרי, כל מייל, וכל צ'אט הוקלטו ונותחו על ידי הארגון.

ההדלפות של סנודן 'פרנסו' כמה וכמה שיחות מעניינות בפינת הקפה אצלי בעבודה. כל עניין הפרות הפרטיות וזכויות האדם הוא חשוב ומעניין, כמובן, אבל אצל מהנדסים כמו מהנדסים – השיחה התגלגלה עד מהרה למישורים אחרים לגמרי. ה-NSA אסף מידע מכמה מחברות הגדולות בעולם: גוגל, פייסבוק, אפל, מיקרוסופט ועוד. מדובר על כמויות אדירות, כמעט בלתי נתפסות, של מידע. הרי רק לפייסבוק לבדה יש קרוב למיליארד משתמשים, ובעלי הטלפונים הניידים בארצות הברית מנהלים שיחות בהיקף של למעלה משני טריליון דקות בשנה אחת בלבד….כיצד מצליחים מהנדסי ה-NSA להתמודד עם כמויות כה גדולות של מידע, ג'יגות על גבי ג'יגות של הקלטות ומסמכים הזורמים בכל שניה אל מאגרי המידע שלהם? ריגול בקנה מידה שכזה דורש משאבים יוצאי דופן. סנודן סיפר על מרכזי-מידע תת-קרקעיים ענקיים במדבריות של מדינת יוטה, אבל אחסון המידע הוא רק בעיה אחת מני רבות. איך שומרים על המידע הזה מאובטח? איך מגבים אותו? ואולי הכי חשוב, איך אפשר לנתח את הררי המידע הבלתי-נתפסים האלה, ולאתר בהם רמזים סמויים להתקפות טרור עתידיות?

ה-NSA לא לבד במערכה הזו. התמודדות עם כמויות גדולות של מידע דיגיטלי היא בעיה שהופכת להיות נחלתן של יותר ויותר חברות וארגונים, במגוון תחומים. ניקח כדוגמא את eBay, אתר המכירות המפורסם. קטלוג המוצרים של eBay מכיל כ-50 אלף קטגוריות, ולמעלה משישים מיליארד דולר מחליפים ידיים בין מוכרים וקונים בכל שנה. eBay מעסיקה כחמשת אלפים אנליסטים שתפקידם לנתח את הפעילות באתר, לזהות את דפוסי ההתנהגות של הקונים והמוכרים ולהעזר בתובנות אלה כדי לשפר את חוויית הרכישה באתר.

כל החנוית, גם כאלה שאנו מבקרים בהן בקניון מדי פעם, שומרות מידע מסוים על הלקוחות שלהן: מי רכש איזה פריט, מתי וכו'. יש רשתות שמציעות ללקוחותיהן כרטיסי-חבר כדי ללמוד עוד על הרגלי הקנייה שלהם ולהציע להם מבצעים רלוונטיים. אך eBay אינה מסתפקת במידע 'דל' שכזה: היא רוצה לדעת הכל על לקוחותיה. בכל פעם שאנחנו גולשים באתר אנחנו משאירים מאחורינו שובל ארוך של פירורי מידע ש-eBay אוספת בשמחה. אילו קטגוריות עניינו אותנו? אילו מוצרים בחנו לעומק ומאילו התעלמנו? איזה אמצעי תשלום בחרנו, ועוד ועוד ועוד…נתונים אלה, עדויות על 'המסע הוירטואלי' שערך הגולש בסופרמרקט הענק של eBay, הם הרמזים שמאפשרים לאנליסטים של החברה ללמוד על ההעדפות והרצונות שלנו, וכך אולי לשכנע אותנו להשאיר מאחור עוד כמה דולרים בביקור הבא באתר.

אבל לסקרנות הזו יש מחיר, כמובן. למעלה מחמישים מיליון איש מבקרים ב-eBay בכל חודש, ומשאירים אחריהם 50 פטהבייט של מידע – 50 מיליון גיגה-בייט! – בכל יום. אפילו עיבוד בסיסי בלבד של המידע – למשל, קבלת תשובה לשאלה 'כמה גולשים חיפשו החודש מוצרי הנעלה?' – הופך למשימה לא טריוויאלית כשמדובר במאות פטה-בייטים שמתווספים למאגר המידע בכל חודש. אותו האתגר ניצב בימינו בפניהם של מהנדסים ואנליסטים בחברות וארגונים רבים – מה-NSA ועד גוגל, אמזון ופייסבוק– וזו הסיבה לכך שבשנים האחרונות מושך תחום המחקר שאוסף בטיפול וניתוח כמויות מידע רבות שכאלה, תחום המכונה 'Big Data', את תשומת ליבם של מדענים וחוקרים רבים.
הנפח הגדול של המידע הוא, מטבע הדברים, מאפיין מרכזי של ביג-דאטא – אבל הוא רק אחד מתוך שלושה מאפיינים שהופכים אותו למאתגר כל כך. הראשון הוא מהירות (Velocity): כמה מהר נוצר מידע חדש ומתווסף למאגר הקיים. ברשת חברתית כמו פייסבוק, למשל, מתפרסמים מיליונים רבים של סטטוסים בכל שניה – מידע חדש שיש לשמור ולעבד בזריזות. מאפיין שני הוא המגוון (Variety): סוגי המידע הנאספים אינם בהכרח הומוגניים, כמו רשימה ארוכה של שמות או מספרי טלפון. ה-NSA, למשל, אוגר שיחות טלפון, וידאו ומיילים – וכל אחד מסוגי מידע אלה דורש תהליכי עיבוד ייחודיים ושונים. אל שלושת ה-Vים הללו – Volume, Velocity ו-Variety – מצטרפים אתגרים נוספים, כגון בעיות אבטחה ושמירה על פרטיות המשתמשים, למשל.

אך למרות האתגר הגדול, עושה רושם שלפחות ברמה הטכנית – ביג-דאטא נמצא תחת שליטה. בשנים האחרונות עלו לקדמת הבמה מספר טכנולוגיות שמאפשרות לנו לעבד כמויות גדולות של מידע בזמן קצר יחסית, באמצעות ביזור המידע בין מספר רב של מחשבים שמעבדים אותו במקביל, כל אחד בנפרד. הדיון בטכנולוגיות אלה – למשל, MapReduce ו-Hadoop, שני שמות שוודאי מוכרים מאד למהנדסים העוסקים בתחום – עשוי להיות מרתק ומעניין בפני עצמו, אבל בפרק הזה בחרתי להתמקד בבעיה אחרת שקשורה בביג-דאטא. היטיב להגדיר את הבעיה הזו סמנכ"ל שיווק של חברת פרסום גדולה:

"אין טעם לאגור מידע לשם אגירת המידע. אנחנו רוצים מידע שיוכל לספר לנו סיפור מועיל אודות הלקוחות שלנו."

או במילים אחרות, איך אפשר למצות תובנות ומסקנות מעשיות מתוך הרי ההררים של המידע הזמין לנו? זו אותה הבעיה מולה ניצבים האנליסטים של eBay וגם (סביר להניח) חוקרי ה-NSA. אם אתה מרגל אחרי אדם אחד או עשרה אנשים, אפשר להצמיד להם כמה סוכנים סמויים שיעקבו אחר פעולותיהם – אבל אם יש לך שיחות טלפון מוקלטות ומיילים של מיליארד איש, זו כבר אינה משימה המתאימה לבני אדם. אתה זקוק לתוכנה נבונה מספיק כדי להסיק מסקנות ולמצוא דפוסים בכוחות עצמה. נכון לעכשיו, בעיה זו נראית מורכבת וקשה הרבה יותר לפתרון מהאתגרים הטכניים אותם תיארתי קודם.

Operation Match

אך לפני שנדון בבעיה, הבה נדבר על הפוטנציאל החיובי של הביג-דאטא. ההבטחה הגדולה של הביג-דאטא, הסיבה שבעטייה אוגרות כל החברות הגדולות כמויות כה גדולות של מידע, היא שמידע זה יאפשר להן לקבל החלטות טובות יותר. אמירה זו נכונה לגבי ארגונים מסוגים רבים ושונים – מעסקים ועד ממשלות – אבל לצורך הדוגמא בחרתי להתמקד בהחלטה מסוג אחר, החלטה אישית ואינטימית שכמעט כל אחד מאיתנו קיבל או שיצטרך לקבל בשלב כלשהו: בחירת בן זוג. זו אולי אינה נראית כמו החלטה קשה ומורכבת כמו החלטה על הקמת מפעל חדש בהשקעה של מיליארדי דולרים – אבל כפי שיודע כל אדם נשוי, זו החלטה שתהיינה לה השלכות מרחיקות לכת על חיינו במשך שנים רבות, לטוב – ולרע.

ג'ף טאר (Tarr) ו-ווהאן מוריל (Morrill) היו סטודנטים באוניברסיטת הארווארד, שבשנת 1965 הגו רעיון מסקרן – שירות שידוכים מבוסס מחשב. הם ניסחו שאלון ובו כמה עשרות שאלות – החל מנתוניו הגופניים של ממלא השאלון וכלה במידת האמונה הדתית שלו – וחילקו אותו בין הסטודנטים והסטודנטיות שבקמפוס. כל מועמד שילם שלושה דולרים, ובתמורה קיבל מעטפה ובה פרטי הקשר של בני זוג פוטנציאליים שהמחשב, בחוכמתו, העריך כי הם עשויים להיות בן או בת הזוג המושלמת עבורו.

שירות השידוכים של טאר ומוריל, 'מבצע שידוך' שמו (Operation Match), זכה להצלחה מרשימה. קרוב ל-9000 סטודנטים נרשמו אליו בשנה הראשונה, ומספר שנים לאחר מכן כבר טיפס המספר לכמעט מיליון משתמשים, והחברה הרוויחה כרבע מיליון דולר. מה הייתה הסיבה להצלחה המרשימה? ובכן, אני יכול להבטיח לכם שאין לה קשר לטכנולוגיה. מחשבים באותה התקופה היו גדולים כמו חדר ויקרים בהתאם – כך שלשני היזמים הצעירים לא היה מחשב משלהם, או אפילו ניסיון בתכנות. הם שכרו את שירותיו של סטודנט אחר שתמורת מאה דולרים כתב להם תוכנה אשר הייתה מסוגלת להשוות את התשובות בשאלונים ולהצביע על השאלונים שההתאמה ביניהם הייתה הגבוהה ביותר. גם לשאלונים עצמם לא היה בסיס תיאורטי איתן, בלשון המעטה. לטאר ולמוריל לא היה ניסיון בשידוכים – או אפילו בזוגיות ארוכת-טווח, למען האמת – ולא הייתה להם כל דרך להעריך את יכולת הניבוי של השאלון לגבי התאמה או אי התאמה בין בני זוג. היה להם, עם זאת, רצון עז להרוויח כסף – ורצון עז לא פחות לפגוש בנות: שני גורמים בעלי נטייה מוכחת לעודד חדשנות אצל גברים.

שורש ההצלחה של 'מבצע שידוך' היה טמון בתקווה של הלקוחות שאולי יש באלגוריתם והעיבוד המהיר איזה מין 'מרכיב קסם סודי' שיצליח לאתר מתוך כל אותם אלפי בני זוג פוטנציאלים את ה'אחד' או ה'אחת' המיוחלים. זאת ועוד, התחושה באותם הימים הייתה שלמחשבים יש פוטנציאל לחולל מהפכה בכמעט כל תחום של חיינו – ואם כבר מהפכה, מדוע לא מהפכה גם בחיי האהבה שלנו? בכתבה עיתונאית סיפרה אחת הנשים שנרשמו ל'מבצע מרץ' שנפרדה מהחבר שלה – אבל אחרי ששמו הופיע ברשימה שקיבלה משירות השידוכים – חזרה לצאת איתו שוב פעם. 'מי יודע,' היא אמרה לכתב העיתון, 'אולי המחשב יודע עליו משהו שאני לא יודעת'.

גם בימינו, איש עדיין לא הצליח למצוא את הנוסחא הסודית לאהבה – לפחות ככל הידוע לי – אך שירותי שידוכים מבוססי מחשב ממשיכים לעשות חיל, במיוחד מאז שהופיעה רשת האינטרנט. על פי ההערכות כאחד מכל עשרה אמריקנים נרשם לשירות שידוכים אינטרנטי שכזה, ואתרים כדוגמת Match.com, eHarmony ו-OkCupid מגלגלים למעלה משני מיליארד דולר בכל שנה.
תעשיית השידוכים ברשת היא, אם כן, תעשיה ענפה ורווחית – ואין פלא שכל החברות העוסקות בתחום מחפשות דרכים לספק למשתמשים שלהן מוצר טוב יותר: ה'מוצר', במקרה הזה, הוא התאמה מוצלחת שתוביל לזוגיות ארוכת שנים.

גם בימינו, הדרך הסטנדרטית למצוא התאמה שכזו היא לבקש מהמשתמשים למלא שאלונים אודות אופיים והעדפותיהם. אך בניגוד לשאלון הקצר שהמציאו טאר ומוריל בשנות השישים – היום אורכם של השאלונים כאורך הגלות: עשרות או אף מאות שאלות אודות העדפות מוזיקליות, טיולים שעשית ברחבי העולם, מאכלים שאתה אוהב יותר או פחות, חיי המין שלך ועוד ועוד – כל פרט שעשוי לסייע לשירות השידוכים למצוא עבורך את בן הזוג המתאים ביותר.

אבל השאלונים הארוכים מהווים בעיה. ראשית, למי מאיתנו יש כוח לענות על 400 שאלות? בשאלות הראשונות אתה משקיע וחושב על כל תשובה –אבל סביר להניח שבשאלה השלוש מאות ושבעים אתה כבר מתחיל לחפף…

שנית, משתמשים רבים עונים תשובות…לא מדוייקות, בלשון המעטה. okCupid, אחד מאתרי השידוכים המובילים, נוהג לפרסם מדי פעם בפעם נתונים מרתקים אודות המידע שמספקים לקוחותיו. באחד הפרסומים הופיע גרף שמראה את התפלגות הגובה של הגברים המשתמשים באתר. התפלגות הגובה של הגברים היא בעלת צורת 'עקומת פעמון' סטנדרטית וצפויה: רוב הגברים בעלי גובה ממוצע ורק מעטים הם גבוהים או נמוכים מאד. יש רק משהו אחד לא בסדר בגרף: הוא מוזז כולו בכמה ס"מ לכיוון הגבוה, ביחס להתפלגות הגובה התקנית של כלל אזרחי ארצות הברית. במילים אחרות, כמעט כל הגברים הרשומים לשירות השידוכים מוסיפים לעצמם עוד כמה ס"מ בגובה… והם לא לבד, כמובן. הססטטיסיקה מוכיחה בברור שנשים, למשל, נוטות 'להפחית' כמה קילוגרמים ממשקלן וכמה שנים מגילן.

אבל גם אם נניח שלא כולם משקרים בכוונה, השאלונים הארוכים עדיין לא מספקים תמונה אמיתית של אופיים ורצונותיהם של הלקוחות. שוב, דוגמא מתוך אחד מפרסומיו של okCupid. חלק מסוים ממשתמשי השירות מצהירים על עצמם בשאלונים שהם בי-סקסואלים, דהיינו נמשכים לשני המינים במידה שווה. אף פי כן, הסטטיסטיקות שאוספת okCupid מראות שאותם משתמשים נוטים לשלוח הודעות וליצור קשרים בעיקר עם בני מין אחד. במילים אחרות, למרות שהמשתמשים מצהירים על עצמם שהם בעלי נטייה זהה לשני הכיוונים, בפועל הם נמשכים למין אחד מסוים. אין כאן הטעייה מכוונת מצד המשתמשים: סוציולוגים יודעים מזה שנים רבות שאדם יכול לראות את עצמו באור אחד, ולהתנהג במציאות באופן אחר לגמרי. למשל, אני יכול להצהיר שאני אדם נאור וליברלי ונטול אף לא טיפה של גזענות – ובכל זאת אני אעדיף בברור לצאת אך ורק עם נשים לבנות, ולא כהות עור. מוחנו בודה כדבר שבשגרה זכרונות מזויפים או מטשטש זכרונות קיימים כדי לתמוך בתפיסת העולם הפנימית שלנו.

חוסר היעילות של השאלונים הוא הסיבה שרוב שירותי השידוכים הממוחשבים פונים בימינו אל הביג-דאטא. כמו eBay בדוגמא שנתתי קודם, אתרי השידוכים אוספים כל בדל של מידע אודות התנהגותם של המשתמשים באתר כדי ללמוד ממנו על אופיים ורצונותיהם האמיתיים: על אילו פרופילים הם מקליקים, אילו מילים הם מזינים בשדות החיפוש, לאלו הודעות ממשתמשים אחרים הם מגיבים במהירות, ואלו הודעות נמחקות מייד. אתרים רבים מבקשים גישה לחשבונות הפייסבוק והטוויטר של המשתמשים כדי ללמוד עוד אודות חבריהם, מבחינת 'ספר לי מי חברך ואספר לך מי אתה'. אלו ספרים אתה קונה באמזון? באלו סרטים אתה צופה בנטפליקס? יש אתרים שמנצלים טכנולוגיה לזיהוי פנים כדי ללמוד על ההעדפות האסתטיות של המשתמשים. אמנם כתבת בשאלון שאין לך שום דבר נגד זקן, אך בפועל הקלקת בעיקר על פרופילים של גברים נטולי-זקן, ולכן האלגוריתם הממוחשב ידאג להבא להציע לך יותר גברים חלקים ומגולחים. במילים אחרות, שירותי השידוכים נעזרים בביג-דאטא כדי לזכות בתובנות חדשות ועמוקות יותר אודות לקוחותיהם: לא רק על מה שהם אומרים שהם אוהבים – אלא על שהם באמת אוהבים. אף אחד מהתובנות האלה אינה מבטיחה שהאלגוריתם אכן יפיק זיווג מושלם, אבל אולי מקרבת אותנו צעד אחד צעד אל מטרה זו.

 Google Flu Trends

השימוש שעושים אתרי השידוכים בביג-דאטא מלמד אותנו על הפוטנציאל הגדול שלו לסייע לנו לקבל החלטות נבונות יותר. רשימת התחומים והנושאים שבהם עשויה להיות לביג-דאטא השפעה מרחיקת לכת ארוכה ומרשימה: כלכלה, אכיפת חוק, פרסום, רפואה, מסחר, תשתיות חכמות ועוד ועוד. אחת הדוגמאות המסקרנות לשימוש מפתיע ובלתי צפוי בביג-דאטא הוא ניסוי מעניין שיזמו מספר חוקרים מגוגל לפני מספר שנים.

שפעת היא מחלה ויראלית המוכרת היטב לכולנו: בכל שנה בתקופת החורף מכה בנו מגיפת השפעת, ומפילה ברשתה מיליוני אנשים בכל רחבי העולם. פרט לאובדן חיי אדם – בעיקר ילדים רכים ואנשים מבוגרים – מגיפת השפעת העונתית גורמת לאובדן משמעותי של ימי עבודה, עומס גדול בבתי החולים ועוד.

הרשות לבקרה ומניעת התפשטות מחלות (ראשי תיבות באנגלית – CDC) היא הגוף האחראי בארצות הברית על מעקב אחר מגיפות השפעת העונתיות. ה-CDC מקבל דיווחים מרופאים בכל רחבי ארצות הברית, מזהה מוקדי התפרצות חדשים של מגיפת השפעת ודואג להעביר אליהם חיסונים ותגבור רפואי מתאים כדי למנוע את התפשטותה. מטבע הדברים, הדיווחים הזורמים מרחבי היבשת הגדולה מגיעים אל ה-CDC בעיכוב מסוים: הרופאים במרכז הבקרה לומדים על התפרצויות חדשות של השפעת רק שבוע עד שבועיים לאחר שהופיעו לראשונה בשטח. מכיוון ששפעת, כפי שכולנו יודעים, מתפשטת במהירות באוכולוסיה צפופה, לעיכוב כזה יש השפעה גדולה על יכולתו של ה-CDC להתמודד עם המחלה.

בשנת 2006 החליטה קבוצת חוקרים בגוגל לרתום את כוחה של ענקית החיפוש לטובת המלחמה בשפעת. השערת הבסיס של החוקרים הייתה שניתן לזהות התפרצות של שפעת באזור מסוים, על ידי זיהוי עליה במספר החיפושים בגוגל אודות מונחים הקשורים במחלה. למשל, אם המון אנשים בעיר מסוימת מחפשים אחר תרופות להורדת חום, שמות של רופאי משפחה או שואלים אודות תסמינים של מחלת השפעת – אפשר להניח, כנראה, שהסיבה לכך היא עליה במספר החולים באותה העיר. גוגל, בזכות הדומניננטיות שלה בשוק החיפוש באינטרנט, נמצאת בעמדה מצוינת לזהות שינויים שכאלה בדפוסי החיפוש של המשתמשים ולהצביע על התפרצות אפשרית של המחלה.

הבעיה העקרונית היא איתור השאילתות הרלוונטיות ביותר למגיפת השפעת: למצוא, מתוך מיליוני מילות החיפוש שמזינים משתמשי גוגל, את אותן מילות חיפוש שמצביעות בצורה המובהקת ביותר על התפרצות של מגיפת השפעת. ברור שחיפוש אחר מילים מסוימות, כגון 'שפעת', עשויות להוות אינדיקציה להתפרצות המחלה – אבל יש משתמשים שיחפשו אחר מילים אחרות, למשל 'התקררות', 'כאבי שרירים', 'חום' וכו'. כשמדובר במיליוני בני אדם, ניפוי ידני שכזה של מילות חיפוש הופך מהר מאד ללא-מעשי.

הפתרון של אנשי גוגל היה מחוכם ואלגנטי: הם החליטו שלא לנסות ולנחש את מילות החיפוש שיצביעו על התפרצות אפשרית של השפעת – אלא לתת למחשב לגלות אותן בכוחות עצמו. הם נטלו מאגר מידע מייצג של חיפושים בגוגל בחמשת השנים האחרונות, והשוו את שכיחות השאילתות של מונחי החיפוש הללו אל מול דיווחי ה-CDC אודות התפרצויות שפעת בתקופה המקבילה.

ניקח, לצורך ההסבר, חיפוש אחר המילים 'הזמנת פיצה'. על פניו, רובנו היינו מניחים שלא צריך להיות קשר בין הזמנת פיצה ומגיפת השפעת, אבל זה לא בהכרח נכון. מי יודע: אולי כשמכה השפעת יותר אנשים חולים נשארים בבית מול הטלוויזיה, ובמקום לצאת למסעדות או להכין ארוחת ערב בעצמם – מזמינים פיצה?… אם ישנו קשר סמוי שכזה בין הזמנת פיצה ומחלת השפעת, השוואה לאורך חמש שנים תראה מתאם ברור ביניהם: בתקופות שבהן חלה התפרצות שפעת, הרבה אנשים יחפשו בגוגל את המילים 'הזמנת פיצה', ולהפך.

החוקרים אספו חמישים מיליון שאילתות אקראיות שהזינו משתמשי גוגל למנוע החיפוש – כל דבר מ'הזמנת פיצה' ועד 'קליפים של בריטני ספירס' – ונתנו למחשב להשוות את שכיחותה של כל שאילתה בכל יום, אל מול דיווחי ה-CDC אודות התפרצויות של מגיפת השפעת. מתוך אותן חמישים מיליון שאילתות הם בחרו את ארבעים וחמש השאילתות שהפגינו את המתאם הגבוה ביותר אל דיווחי ה-CDC.

כעת יכלו החוקרים להעמיד את האלגוריתם שלהם למבחן. במשך שנתיים הם עקבו אחר החיפושים שערכו המשתמשים במדינות שונות ברחבי ארצות הברית, ובדקו אם הם אכן מסוגלים לזהות התפרצות של מגיפת שפעת ממש בעת התרחשותה – אך ורק על סמך עליה בשכיחות החיפושים אחר שאילתות אלה, שנבררו מתוך אינספור החיפושים שעורכים משתמשי גוגל בכל רגע נתון.
בשנת 2009 פרסמו החוקרים מאמר בירחון היוקרתי Nature. הם תיארו את האלגוריתם בו השתמשו – ואת העובדה כי מחשביה של גוגל מצליחים לא רק לזהות בהצלחה התפרצות של מחלת השפעת, אלא הם גם מסוגלים לעשות זאת כמעט שבועיים תמימים לפני ה-CDC! המאמר עורר סקרנות רבה, ולא רק בקרב הרופאים שזכו בכלי נשק חדש במלחמתם כנגד השפעת – אלא גם, ואולי בעיקר, בקרב המדענים והמהנדסים העוסקים ב'ביג-דאטא'.

מותה של השיטה המדעית?

האתגר שמולו ניצבו חוקריה של גוגל הוא אותו אתגר שתיארתי בפתיח הפרק, אותה הבעיה הקלאסית של הביג-דאטא: איך אפשר למצות תובנות ומסקנות מעשיות – לגבי מגיפת השפעת, במקרה זה -מתוך שטף עצום של מידע שזורם אליך בזמן אמת?

השיטה המדעית הסטנדרטית, שלאורה פועלים המדענים מזה מאות שנים, גורסת שקודם כל יש להעלות השערה או לנסח תיאוריה, ואז לבחון את יכולת הניבוי של התיאוריה אל מול המתרחש במציאות. למשל, אם יש בידינו רשימה ארוכה של שאילתות חיפוש בגוגל, עלינו ראשית לשער מי מאותן שאילתות תהווה אינדיקציה טובה להתפרצות מגיפה – ואז לבחון את ההשערה הזו בפועל על ידי בדיקת המתאם ההיסטורי בין שכיחות השאילתות הנבחרות, והתפרצות המחלה.
החוקרים של גוגל הפכו את השיטה הזו על ראשה. במקום לנסח השערה ואז לבחון אותה אל מול המציאות – הם נתנו למחשב לנסח בעצמו את התיאוריה הנכונה מתוך ערימות הביג-דאטא. הם לא ניסו לנחש אלו מילות חיפוש תואמות את התפרצות השפעת, אלא ניצלו את כוחו של המחשב כדי לבדוק את כל מילות החיפוש הקיימות – ומתוכן לברור את אלה שמהוות אינדיקציה טובה להופעת מגיפה.

מאמרם של חוקרי גוגל נתן משנה תוקף לטור-דעה יוצא דופן שפרסם שנה קודם לכן כריס אנדרסון (Anderson), עורך מגזין הטכנולוגיה Wired. כותרתו של הטור הייתה 'סופה של התיאוריה: שטף המידע מייתר (Obsolete) את השיטה המדעית', ובו טען אנדרסון שבעידן הביג-דאטא אין עוד טעם בניסוח מודלים, השערות ותיאוריות.

"כעת, יש בידינו דרך טובה יותר. פטה-בייטים [של ביג-דאטא] מאפשרים לנו לומר: 'מתאם [(קורלציה)] הוא מספיק'. אנחנו יכולים להפסיק לחפש אחר מודלים. אנחנו יכולים לנתח את המידע ללא השערות אודות מה הוא מייצג. אנחנו יכולים לזרוק את הנתונים לתוך המחשבים החזקים ביותר שהעולם ידע מימיו, ולתת לאלגוריתמים סטטיסטיים למצוא בהם דפוסים שהמדענים אינם מסוגלים למצוא."

במילים אחרות: אפשר להפסיק לחשוב. אם אין לנו כל סיכוי להתמודד עם מיליארדים על גבי מיליארדים של מספרים ונתונים ולמצות מתוכם תובנות, עדיף שלא ננסה. זו טענה שערורייתית ומפתיעה, העומדת בניגוד גמור לצורת המחשבה לה אנחנו רגילים – אבל יש בה הגיון. השיטה המדעית של העלאת השערות והפרכתן מתאימה לאופן הפעולה של המוח האנושי – אבל לא לאופן הפעולה של המחשב. למחשב קל הרבה יותר לעבור על כל הנתונים, רבים ככל שיהיו, ולזהות בתוכם דפוסים חבויים – מאשר להעלות השערות וניחושים.

אם אנדרסון צודק, ייתכן וביג-דאטא מייצג לא רק דרך חדשה לעשות עסקים, כי אם מהפכה מדעית של ממש: דרך חדשה ושונה להבין את העולם שסביבנו.

אבל שום דבר אינו פשוט כפי שהוא נראה. מדענים ממגוון תחומים – ממתמטיקה ועד מדעי החברה – מיהרו לפרסם מאמרים משלהם, ובהם הצביעו על מספר חולשות מהותיות בטיעוניו של כריס אנדרסון. החולשה הראשונה נצפתה, למרבה האירוניה, דווקא באותו מחקר מרתק ופורץ דרך של גוגל לגבי מגיפת השפעת.

מתאם וסיבתיות

המידע שמפיקה גוגל לגבי מגיפת השפעת זמין לציבור הרחב תחת השם Google Flu Trends. במשך מספר שנים פעל האלגוריתם של גוגל כהלכה והפיק תמונת מצב עדכנית ומהימנה למדי לגבי סטטוס מגיפת השפעת בארה"ב – אך בעונת החורף של 2012-2013 נתגלעה בו תקלה. האלגוריתם זיהה נכונה את התפרצות השפעת העונתית – אבל הגזים בעוצמתה: ההערכות שהפיק האלגוריתם לגבי מספר החולים בשפעת היו גבוהות לפחות פי שתיים ממספר החולים שדיווח מאוחר יותר ה-CDC. זו סטייה גדולה ומשמעותית, ובגוגל הזדרזו לבדוק את פשר הטעות.

מסתבר שהוירוס שהיכה באותה השנה היה מוכר כזן אלים ומסוכן יותר מזני שפעת אחרים, ועל כן הופיעו בכלי התקשורת דיווחים רבים מהרגיל אודות סכנות השפעת. הכתבות הרבות בתקשורת העלו, ככל הנראה, את מפלס החרדה של האזרחים. משתמשים רבים יותר חיפשו מידע אודות מחלת השפעת באינטרנט – וכך הצליחו להטעות את האלגוריתם של גוגל.

אירוע זה מדגים את הבעייתיות הגדולה ביותר בטיעון של כריס אנדרסון לפיו אין צורך בתיאוריה מבוססת כדי לפענח מידע. האלגוריתם של גוגל נשען על מתאם – קורלציה – בין שכיחות של מילות חיפוש ובין מגיפת השפעת, אבל כפי שציינו כמה וכמה מבקרים – מתאם אינו מלמד בהכרח על סיבתיות.

דמיינו לעצמכם שני כלבים קשורים ברצועה וקשורים לאותו הספסל. לפתע עובר מולם חתול, ושני הכלבים מזנקים קדימה ומותחים את הרצועה. יש מתאם ברור בין ההתנהגות של שני הכלבים: שניהם מתחו את הרצועות שלהם בו זמנית. אבל לפתע עובר ליד הספסל ילד שמפיל חפיסה של במבה. כלב אחד לא אוהב במבה, ולכן מתעלם ממנה וממשיך לנסות לתפוס את החתול. הכלב השני דווקא אוהב במבה ולכן עוזב את החתול וניגש אל הבמבה. גורמים שונים השפיעו על הכלבים, והמתאם בין ההתנהגויות שלהם נשבר. באותו האופן, השגיאה באלגוריתם הדגימה לנו שגורמים שונים משפיעים על עוצמת התפרצות השפעת ושכיחות החיפושים באינטרנט: בתנאים מסוימים ישנו מתאם מצוין בין השניים האלה, כמו שני כלבים שרודפים אחרי חתול – אך בתנאים אחרים הקורלציה המושלמת נסדקת, כפי שארע בעקבות דיווחי החדשות המוגזמים.

במילים אחרות, הסתמכות על קורלציות כדי להפיק תובנות מתוך ים של מידע היא עסק שברירי מאד. אם אתה לא מבין את הדינמיקה של המערכת שאתה חוקר – מה משפיע על מה ואיזה גורם משפיע על איזה נתון – קל מאד לטעות ולמצוא דפוסים שאינם קיימים. מי יודע אלו גורמים בלתי ידועים אחרים משפיעים על האלגוריתם של גוגל? היו חוקרים שהצביעו על כך שאפילו גוגל עצמה עשויה להשפיע בלא-יודעין על עצמה: הרי המהנדסים שלה הם אלו שקובעים מה יהיו תוצאות החיפוש. אם חיפוש אחר המילה 'עיטוש' מחזיר תוצאות אודות זן קטלני ומסוכן מאד של שפעת, לצורך הדוגמא – מפלס החרדה של המשתמשים יעלה משמעותית, מה שיוביל לחיפושים נוספים אודות תסמיני שפעת, וכן הלאה וכן הלאה.

בעיה מהותית נוספת בהסתמכות על קורלציות היא שבגוף מידע גדול מאד ועשיר בנתונים, עשויים בהחלט להסתתר לא מעט קורלציות כוזבות: דפוסים אקראיים שאין מאחוריהם דבר. למשל, נניח שאנחנו מסתכלים על נתוני התעבורה בתל-אביב בעשר השנים האחרונות. אנחנו שמים לב שממוצע מספר מקומות החניה הפנויים בעיר הלך וקטן עם השנים – ובמקביל, מספר הרכבים שנהגיהם מאזינים לפודקאסטים הלך ועלה. האם אפשר להסיק מכך כי יש קשר בין פודקאסטים ומקומות חניה? כנראה שלא: זהו מתאם כוזב שעשוי להטעות אותנו, אם לא ננסה להבין מה עומד מאחוריו.
ולבסוף, ישנה הסכנה שהמידע הנאסף – למרות גודלו המרשים – יכיל הטיות ושגיאות דקות, שיובילו את החוקר אל מסקנות שגויות לחלוטין. הסיפור הבא ידגים את סכנה זו.

ג'ורג גאלופ

ג'ורג גאלופ (Galllup) היה עיתונאי ופרסומאי צעיר. ב-1932 התנדב גאלופ לערוך סקר עבור החותנת שלו שהתמודדה במירוץ לסנאט מטעם מדינה איווה, וטעימה ראשונית זו גרמה לו להמשיך ולהתעניין בפוליטיקה ובסקרי דעת קהל. בשנת 1935 הקים חברת סקרים משלו בשם 'המכון האמריקני לדעת קהל'.
המגזין The Literary Digest היה שבועון ותיק שנוסד בשלהי המאה ה-19 ושילב אקטואליה, מאמרי דיעה וענייני אמנות. בשנות העשרים של המאה העשרים כבר היו למגזין המצליח למעלה ממיליון קוראים.

בשנת 1936 נערכו הבחירות לנשיאות בין פרנקלין רווזוולט מהמפלגה הדמוקרטית , ואלפרד לנדון הרפובליקני. אלו היו בחירות מסקרנות מאד: ארצות הברית הייתה אז בעיצומו של השפל הכלכלי הגדול שפגע בכמעט כל משפחה, והרפובליקנים והדמוקרטים התווכחו ביניהם על הדרך הנכונה להוציא את הכלכלה האמריקנית מהבוץ. כתמיד, כלי תקשורת שונים ערכו סקרים מקדימים כדי לנבא מי יזכה בבחירות.

ל-Literary Digest הייתה היסטוריה ארוכה ומפוארת של תחזיות מדוייקות: בכל חמשת הבחירות הקודמות הצליחו סוקריו לנבא את תוצאות הבחירות בהצלחה. בכל מדגם ישנו מרווח טעות מסוים: אי ודאות שנובעת מעצם העובדה שמדובר בדגימה של חלק מתוך כלל ציבור הבוחרים, ולא הציבור כולו. עקב הנסיבות הכלכליות והסקרנות הציבורית לגבי הבחירות הקרבות, החליטו עורכי המגזין למזער את מרווח הטעות הזה עד למינימום, וליזום סקר בהיקף שכמותו לא נראה עד אז. המגזין שלח טפסי סקרים לעשרה מיליון בני אדם – רבע (!) מכלל בעלי זכות הבחירה במדינה. הנשאלים נתבקשו לסמן בטופס עבור מי הם עומדים להצביע, ולשלוח אותו בדואר בחזרה למשרדי המגזין. כשניים וחצי מיליון איש שלחו את הטפסים בחזרה. על סמך מדגם אדיר ורחב היקף זה הכריז ה-Literary Digest כי אלפרד לנדון עומד לזכות בבחירות הקרובות בהפרש של חמישים וחמישה אחוזים מהקולות לעומת ארבעים ואחת אחוזים לרוזוולט.

לג'ורג' גאלופ והחברה הצעירה שלו לא היו, כמובן, משאבים כמו אלו שעמדו לרשות המגזין המצליח. גאלופ דגם רק כ-50,000 מצביעים פוטנציאליים – אך הסקר שלו ניבא תוצאה הפוכה לחלוטין: ניצחון סוחף לרוזוולט הדמוקרטי. רבים פיקפקו בתוצאות הסקר של גאלופ. לא רק שה-Literary Digest דגם כמות גבוהה בהרבה של מצביעים, גם היה ברור למדי שהמצביעים במדינת מיין נוטים לכיוונו של המועמד הרפובליקני, וכולם ידעו – על סמך ניסיון העבר – שמיין מייצגת את הצבעת כלל תושבי ארצות הברית: לאן שמיין הולכת, שם הולכת המדינה כולה.

בנובמבר, 1936, יצאו האמריקנים להצביע – והתוצאות היו חד משמעיות. לא רק שרוזוולט ניצח את לנדון בשיעור של שישים ואחת אחוזים אל מול שלושים ושבעה אחוזים – ההפרש השני בגודלו בהיסטוריה עד אותו הזמן – האופן הייחודי שבו מתורגמים קולות המצביעים האמריקנים לקולות אלקטוריאלים הביא לכך שהיה זה הנצחון האלקטוריאלי הגדול והסוחף ביותר בתולדות הנשיאות. רוזוולט זכה בכל המדינות פרט למיין וורמונט הקטנות. מעתה אימרו: לאן שמיין הולכת, לשם גם הולכת וורמונט.

הפרשנים חגגו על חשבונו של ה-Literary Digest, שתוצאות הסקר שלו היו שגויות במידה פנטסטית כמעט. המכה ליוקרתו של המגזין הייתה אנושה, וקוראיו נטשו אותו בהמוניהם: שנים ספורות לאחר מכן נסגר המגזין סופית.

מה קרה שם? כיצד ייתכן שהסקר של ה-Digest היה כה שגוי למרות העושר האדיר של מידע שנתקבל ממצביעיו? ג'ורג גאלופ ידע את התשובה. הוא ידע אותה אפילו עוד לפני שהתקבלה! גאלופ ערך סקר קטן משלו בין משיבי הסקר של ה-Literary Digest, ולא רק שידע לומר שהסקר של המגזין מוטעה – הוא גם ניבא את מרווח הטעות האדיר אל מול התוצאות הסופיות.

התשובה היא דגימה מוטה. עורכי המגזין חששו מפני טעות דגימה שנובעת ממדגם קטן של מצביעים, ולכן שלחו שאלונים לכל מי שיכלו להשיג את כתובתו. אלו היו כל מנויי המגזין, כמובן, וגם כתובות שנאספו מספרי טלפונים ורישומים של בעלי רכבים בארצות הברית. אבל מה שג'ורג גאלופ הבין – מה שסוקרי המגזין לא הבינו – הוא שאנשים אלה אינם מייצגים את האזרח האמריקני הממוצע של אותה התקופה. קוראי המגזין חובבי האמנות, אנשים שהצליחו לממן אחזקת רכב בתקופה של שפל כלכלי קשה ובעלי בתים שהיה להם טלפון, המצאה חדשה יחסית – היו קהל המצביעים הקלאסי של המפלגה הרפובליקנית: אנשים אמידים בני המעמד הבינוני-גבוה. זאת ועוד, סביר להניח שמי שמילא את הטפסים וטרח לשלוח אותם בחזרה אל המגזין היו בעיקר המצביעים שהיה חשוב להם להראות עד כמה הם נאמנים לדרכה של המפלגה הרפובליקנית – עובדה שהיטתה עוד יותר את תוצאות המדגם.

הלקח שלמדו סוקרי ה-Literary Digest על בשרם רלוונטי גם בימינו: דגימה גדולה ושגויה היא הרבה יותר גרועה מדגימה קטנה אבל כזו שנבחרה בחוכמה. כשעוסקים בביג-דאטא, קל לטעות ולחשוב שרק מכיוון שיש לך המון מידע – מידע זה גם מייצג נאמנה את המציאות. מכוני המחקר הישראליים יכולים, לצורך הדוגמא, לאסוף עשרות אלפי ציוצים של מנויים ישראלים בטוויטר ולנסות לחזות בעזרתם את תוצאות הבחירות הקרובות – הרבה יותר קל, נוח וזול לביצוע מאשר להתקשר לעשרות אלפי ישראלים ולבקש מהם לענות על סקרים בטלפון – אבל הם לא יעשו זאת. הישראלים שמשתמשים בטוויטר לא מייצגים את הציבור הישראלי כולו, כפי שמאזיני פודקאסטים אינם מייצגים את כלל מאזיני הרדיו בישראל. המנעות מהטיה בדגימה הופכת להיות קשה בהרבה כשמדובר בביג-דאטא, מכיוון שמעצם עושרו של מאגר המידע אין דרך קלה לאפיין את כל המקורות שמהן השגנו אותו.

לכבוש את ההר

אם כן, מה צופן העתיד עבור הביג-דאטא? כפי שראינו, הדיעות חלוקות לכאן ולכאן. יש מי שמאמינים שהפטא-בייטים הרבים של מידע שעומדים לרשותנו יכולים להשפיע עלינו עמוקות. בעזרת ביג דאטא נוכל לקבל החלטות חכמות ונכונות יותר במגוון תחומים: מהחלטות עסקיות ועד לוחמה בפשיעה ובטרור. אחרים, כמו כריס אנדרסון מ-Wired, חוזים מהפכה מדעית של ממש: עתיד שבו מחשבים מתוחכמים יוכלו לנסח תיאוריות מתוך מידע ובכך להשלים את חסרונותיו של המוח האנושי שאינו מסוגל לעכל כמויות כה גדולות של מידע.

חוקרים אחרים מזהירים מפני אופוריה מוגזמת, ומזכירים לנו שלהגיון הממוחשב יש גם לא מעט חסרונות. למשל, מדען מתחום עיבוד המידע כתב ש-

"יש נטיה לעיבוד מידע להפוך ליותר ויותר 'רדוד' ככל מידע רב זמין לנו. עושה רושם שאנשים רבים מאמינים שאם יש להם להם הרבה מידע, אז הם כבר לא באמת צריכים להבין אותו או להבין את הבעיה בכלל."

ויש מי שטוענים שביג-דאטא הוא לא יותר מהייפ, התלהבות סתמית וחסרת בסיס שנתפכח ממנה בעוד מספר שנים.

באופן אישי, איני שותף לדיעה זו. נוהגים לדמות את הביג-דאטא להר גבוה, ערימות אדירות של מידע גולמי. אני לוקח את האנלוגיה הזו צעד אחד קדימה: ביג-דאטא הוא כמו הר גבוה שעדיין לא כבשנו. המדענים צריכים עדיין ללמוד כיצד להתמודד עם ביג-דאטא ומאלו סכנות יש להשמר כשמקבלים החלטות על סמך אלגוריתמים ולא תאוריות – אבל כדאי לזכור שה-NSA, למשל, הוא הארגון שמעסיק הכי הרבה מתמטיקאים בעולם כולו. ארגונים גדולים ועתירי משאבים כדוגמת ה-NSA, גוגל, eBay, פייסבוק ודומיהם משקיעים מאמצים רבים כדי למצוא פתרונות לבעיות שתארתי. לדעתי, יש סיבה ממשית להאמין שבשנים הקרובות נזכה לראות התפתחויות ויישומים מעניינים מאד בתחום הביג-דאטא.

קרא עוד בנושאים דומים:

אודות:

ספריו של רן:

כתיבת תגובה

האימייל לא יוצג באתר.