Skip to content

"יש הרבה פערים בדאטה בכלי האנליטיקס ואין מי שבאמת יסביר למה יש אותם…"

הרבה CTOs / VP R&Ds ואפילו מנהלי דאטה ו-BI מגיעים למצב של לתלוש שיערות מרוב תסכול לאור פערים בדאטה בחברה שלהם.

בעוד שכלי אנליטיקס דוגמת Mixpanel, Google Analytics, Amplitude ואחרים מאפשרים לרוב הטמעה יחסית קלה, בהרבה מאוד חברות נוצרים פערים בדאטה לאחר ההטמעה.

חלק מפערי הדאטה הם דרמטיים ובעלי פוטנציאל לפגוע ביכולת החברה למדוד כמו שצריך את הפעילות.
זה יכול להגיע גם לחוסר אמון מוחלט במספרים של אנשי הביזנס, הפרודקט והאנליזה.
התוצאה: חוסר יכולת לקבל החלטות מדויקות – ופספוס היעדים העסקיים…

בפוסט נמפה כמה פערי דאטה מרכזיים הנוגעים לכלי אנליטיקס, ונבין איך להתחיל להתמודד איתם.

אמל"ק – צ'קליסט טיפול בפערי דאטה:

  1. 🔎 זיהוי הפער
    • מהי האמת – מה המספר הנכון – שאמור להיות?
    • עד כמה הפער מהותי? (האם בשביל פער של 1% צריכים לעצור הכל?…)
  2. 🚦 אבחון מה גורם לפער
    • האם הפער הוא בנתוני המקור או שנובע מהפעלת חישוב/ לוגיקה על הדאטה?
    • האם הפער נובע מסוגיות אפיון, מימוש או כלי שבו משתמשים?
  3. 💊 פעולה מיידית לנטרול הפער
    • זיהוי נתון עוגן שכן סומכים עליו.
    • על מה ששגוי – יצירת לוגיקה אד-הוק לתיקון מהיר.
  4. 🏆 סגירת הפער
    • תיקון קבוע בקוד.
פערים בדאטה - data quality gaps

🎬 הקדמה

חברות סטארטאפ בתחום התוכנה, וגם חברות מסורתיות רבות מאופיינות בפעילות דיגיטלית מסיבית של הלקוחות והמשתמשים.
הפעילות הזו מנוטרת ברוב המקרים באמצעות כלי אנליטיקס דוגמת Mixpanel, Google Analytics, Amplitude ואחרים.
ובעוד שכלי אנליטיקס מאפשרים לרוב הטמעה יחסית קלה, בהרבה מאוד חברות נוצרים פערים בדאטה לאחר ההטמעה.

❌ מהו פער בדאטה?

ההגדרה של "פער" היא יחסית פשוטה: הבדל בין 2 פרמטרים שונים.
בהתאם, פער בדאטה יתייחס להבדל בין 2 פרמטרים שאמורים לייצג את אותו הדבר.
לדוג': מספר המשתמשים באפליקציה שלנו שכלי האנליטיקס הציג בחודש האחרון הוא 900;
למול זה, אנחנו מכירים מהניסיון שלנו 1,000 משתמשים.

המשמעות של הפער:
לאן נעלמו לנו 100 משתמשים?…
והאם אפשר בכלל לסמוך על המספרים שאנחנו רואים בדוחות?

🔎 איך מזהים פערים בדאטה?

לאור הגדרת פער המידע, הזיהוי של פערי מידע הוא יחסית ישיר – משהו במספרים לא מסתדר…
זה יכול להיות בגדול אחד משני המקרים הבאים:

  • נתונים סותרים ממספר מערכות עבור פרמטר שאמור לכאורה להיות זהה.
    (לדוג': גוגל אנליטיקס מציג 2,000 משתמשים, למול ממשק הפרסום של גוגל שמשום מה מציג 2,300 משתמשים).
  • אחד המספרים לא מסתדר למול "ההיגיון העסקי" – כלומר מה שאנחנו מכירים.
    (לדוג': אנחנו מכירים 1,000 משתמשים, אבל כלי האנליטיקס מציג רק 900).

🔮 מהי האמת?

על מנת לזהות פער, או להעריך עד כמה הוא משמעותי, נדרש קודם כל להבין מהו ה-Source of truth.
ברוב המקרים, יהיה מדובר ב-common knowledge של החברה – דוגמת מספר המשתמשים באפליקציה.
כאשר אין מספר חד משמעי כזה, או שלא ברור האם הוא מדויק מספיק – ברוב המקרים יש כלל ברזל:
"Follow the money".
הכוונה היא לנתונים הכספיים כמו הכנסות, רווחיות וכיו"ב.
אלה הנתונים אותם החברה מדווחת לרשויות ולבעלי העניין, ולכן הם למעשה הכי מדויקים שיש.
כמובן שלא כל נתון רלוונטי בהיבט הכספי, ולכן נדרש למצוא Benchmark לערך האמיתי.

🌡 הערכת פער המידע

לאחר שמזהים פער מידע, השאיפה המיידית היא להבין האם הוא בכלל מהותי.
"פער מהותי" הוא הגדרה סובייקטיבית למדי, אבל בגדול שווה להבין אם ישנה השפעה מהותית על הביזנס.
לרוב – פער הנחשב למקובל וניתן להזנחה הוא פער של אחוזים בודדים.
בכלי אנליטיקס לרוב קיימים פערים מובנים בהיבט הטכנולוגי (חוסמי פרסומות, ניתוקי אינטרנט וכיו"ב), אז ייתכנו גם פערים של 10% ויותר שניתן "לחיות איתם".
מצד שני, ייתכנו גם מקרים שאחוזים בודדים לא ייחשבו כמשהו זניח ונדרש יהיה לבחון אותם – לדוג': כסף שנכנס לחברה.
כך שבכל אופן נדרש להגדיר מהו "פער מהותי" באופן פרטני.

🚦 סוג פער המידע

לאחר ההבנה שיש פער דאטה מהותי, השלב הבא הוא לאבחן מה בדיוק הסוג שלו ומה גורם לו.

קיימים הרבה סוגים של פערי מידע, כאשר כל אחד מהם יכול למקד אותנו מה נדרש להעמיק ולבחון בשביל לזהות את הסיבה.
אפשר להתחיל לאבחן את חומרת הפער באמצעות השוואת המדד שנראה לנו שיש בו פער למול הערך שאנחנו מכירים מההיגיון העסקי:

  • דאטה לא קיים
    (דאטה לא נאסף/ נשמר, "נעלם בדרך" וכיו"ב; לדוג': 0 צפיות בדפים/מסכים באפליקציה).

  • דאטה קיים אבל לא נכון בעליל
    (פער משמעותי ברמה של סדר גודל – רואים רק 100 משתמשים באפליקציה מתוך 1,000 משתמשים שיש בפועל).

  • דאטה קיים אבל עם סטייה מסוימת מהמציאות
    (עד כמה עשרות אחוזים; לדוג': רואים רק 900 משתמשים באפליקציה מתוך 1,000 שמכירים בפועל).

  • דאטה כפול
    (כפילות איבנטים; לדוג': רואים 2,000 משתמשים מול רק 1,000 שאמורים להיות לפי מה שמכירים בהיגיון העסקי).

כל מקרה יכול להכווין ולמקד אותנו לבעיה הפרטנית הגורמת ליצירת הפער.

🗺 מיפוי סיבות מקור לפערי דאטה

לאחר שאבחנו את סוג הפער, ניתן להעמיק ולנתח את הסיבה ליצירת הפער.

בעוד שיכולות להיות סיבות רבות לפערי דאטה, קיימות 4 משפחות עיקריות:

  • בעיה באפיון איסוף הדאטה
    (הגדרה לא סגורה של איזה דאטה נדרש לאסוף ואיך).
  • בעיה בהטמעת הכלי האנליטי
    (מימוש בקוד – חוסר תאימות בין המימוש לאפיון).
  • בעיות טכניות הקשורות לכלי
    (חוסמי פרסומות, צד לקוח/שרת, סמפלינג וכיו"ב).
  • הגדרות לא עקביות בעת האחזור או הניתוח של הדאטה
    (לדוג': פער בכמות הרכישות בגלל התייחסות רק לרכישות אונליין והתעלמות מהרכישות הטלפוניות).

לאחר זיהוי סיבת המקור לפער בדאטה – ניתן להעמיק עוד ולזהות ברמה פרטנית את הסיבה הספציפית.

💊 איך לטפל בפער? מענה ראשוני

אז מה עושים בשביל לסגור פערי דאטה?

קודם כל – חשוב להבין שיש 2 סוגי פתרונות:
פתרון לטווח קצר ('פלסטר'/ 'גלולת קסם');
ופתרון לטווח הארוך.

בטווח הקצר, ככל הנראה יהיה קשה לסגור לחלוטין את הפער.
מה שכן אפשר לשאוף אליו הוא איך אפשר לחיות עם המספרים המדווחים על אף הפער.
אם הפער לא מהותי – אפשר לחיות איתו בטווח הקצר.
אם הפער כן מהותי, קריטי להבין מה בדיוק יוצר את הפער, ולהסיק היכן כן אפשר לסמוך על הנתונים.

לדוג': אם יש בעיה באייפונים, ייתכן וכן אפשר לסמוך על הדאטה במחשבים או באנדרואיד.
זה כמובן רחוק מלהיות מושלם, אבל לפחות יאפשר המשך הסתמכות על הדאטה בדיווח ואפילו בניתוח מגמות – בטווח הקצר ואפילו הבינוני.

🏆 סגירת פערים בדאטה – פתרון קבוע

בטווח הארוך, השאיפה היא לסגור את הפער ולאפס אותו, כלומר להגיע למדידה מדויקת.
כאן כבר נדרש לאפיין לעומק את מקור הפער ואת הדרך לסגור אותו.
בהרבה מקרים זה משהו שידרוש תשומות של פיתוח – תיקון ההטמעה בקוד, ולכן עשוי לקחת זמן.

בשלב הפתרון הקבוע חשוב לתת מענה לשני סוגי דאטה:

  • דאטה עתידי – שנאסף מהיום והלאה
    כאן נדרש כאמור טיפול בקוד.

  • דאטה בעבר – כזה הסובל מהפער.
    עבור הדאטה הזה אפשר או להזניח, או לטייב באמצעות תהליך טיוב ייעודי.

 

🎱 פערים בדאטה - סיכום

פערי דאטה הם בעיה נפוצה מאוד בקרב חברות – גם בקרב חברות עם פעילות בדיגיטל כמו סטארטאפים – אבל גם בקרב חברות גדולות.
כלי אנליטיקס לניטור התנהגות לקוחות ומשתמשים כוללים יתרונות אדירים אבל גם סיכון לא מבוטל לפערי דאטה כאלה.
לכן, קריטי להיות עם היד על הדופק, לזהות פערי דאטה מוקדם ככל האפשר ולדעת גם איך להתמודד איתם – בטווח המיידי ובטווח הארוך.
טיפול אפקטיבי בפערי דאטה עשוי למנוע מצבים של אובדן אמון בדאטה וקבלת החלטות המבוססות על היעדר דאטה במקרה הטוב, ועל דאטה שגוי וחסר במקרה הרע.

**סקשן עדויות**

אם יש לך שאלות נוספות או צורך קריטי באבחון וסגירת פערים בדאטה - מוזמן/ת להשאיר פרטים לשיחת Intro בנושא:

מי אני?

אייל גורפינקל
מומחה אופטימיזציית שרשרת דאטה (Data Chain) ו-Insight Hacker.

אייל בילה את 20 השנים האחרונות בייעוץ אנליטי וניהול פרויקטי דאטה בחברות כמעט בכל מגזר אפשרי – החל מסטארטאפים טריים ועד לבנקים הגדולים.

לאחר שהתחיל כדאטה אנליסט בלי ניסיון ובלי הכוונה, טיפס בכוחות עצמו לצמרת התחום בארץ – תוך כדי פיתוח מיומנויות ומתודולוגיות אנליטיות ייחודיות.

במקביל, ניהל עשרות צוותים אנליטיים, וראיין והכשיר מאות אנליסטים ואנשי דאטה.

כיום, עוזר ליזמים לעשות סדר בדאטה שלהם, להוציא ממנו תובנות עמוקות ולקבל על בסיסו החלטות מונחות לייזר שמזיזות את המחט ומניעות צמיחה.