הכנת נתונים

הכנת נתונים או הכנת מידעאנגלית: Data preparation) היא פעולה של מניפולציה (או עיבוד מקדים) של נתונים גולמיים (שעשויים להגיע ממקורות שונים) לצורה שניתן לנתח בקלות ובדייקנות יתר.[1]

הכנת נתונים היא השלב הראשון בפרויקטים של ניתוח נתונים ויכולה לכלול משימות דיסקרטיות רבות כמו טעינת נתונים או קליטת נתונים, טיוב נתונים, ניקוי נתונים, ריבוד נתונים ואספקת נתונים.[2]

הנושאים שיש לטפל בהם מתחלקים לשתי קטגוריות עיקריות:

  • שגיאות שיטתיות הכוללות מספר רב של רשומות נתונים, כנראה מפני שהגיעו ממקורות שונים
  • שגיאות בודדות המשפיעות על מספר קטן של רשומות נתונים, כנראה עקב שגיאות בהזנת הנתונים המקורית

מפרט נתונים

[עריכת קוד מקור | עריכה]

השלב הראשון הוא לקבוע מפרט מלא ומפורט של הפורמט של כל שדה נתונים ומה משמעות הערכים. שלב זה צריך לקחת בחשבון את:

  • הכי חשוב, התייעצות עם המשתמשים בנתונים
  • כל מפרט זמין של המערכת שישתמש בנתונים לביצוע הניתוח
  • הבנה מלאה ככל שניתן של המידע הזמין, וכל הפערים, בנתוני המקור

נניח שיש שדה אלפביתי בן שני תווים המציין מיקום גאוגרפי. ייתכן שבמקור נתונים אחד קוד "EE" פירושו "אירופה" ובמקור נתונים אחר אותו קוד פירושו "אסטוניה". יהיה צורך לתכנן קבוצה חד משמעית של קודים ולתקן את הקוד בקבוצה אחת של רשומות בהתאם.

יתר על כן, ה"אזור הגאוגרפי" עשוי להתייחס לכל אחד מהכתובות למשל, כתובת למשלוח, כתובת לחיוב, כתובת שממנה סופקו הסחורה, מטבע חיוב או תקנות לאומיות החלות. נושאים אלו חייבים להיות מכוסים במפרט.

יכולות להיות כמה רשומות עם "X" או "555" בשדה זה. ברור שמדובר בנתונים לא חוקיים מכיוון שהם אינם תואמים את המפרט. אם יש רק מספר קטן של רשומות כאלה, אפשר לתקן אותן באופן ידני או אם הדיוק אינו חשוב, פשוט למחוק את הרשומות האלה מהקובץ. אפשרות נוספת תהיה ליצור קטגוריה "לא ידוע".

דוגמאות נוספות לנתונים לא חוקיים הדורשים תיקון

[עריכת קוד מקור | עריכה]
  • מספרי הטלפון הם בפורמט הנכון ויש להם את הערכים הנכונים עבור הטריטוריה המצוינת בשדה המיקום הגאוגרפי. קוד המדינה עשוי להיות קיים ברשומות מסוימות ולא באחרות: יש להסיר אותו או להכניסו (בהתבסס על המיקום הגאוגרפי) בהתאם למפרט הנתונים. באופן דומה, הפורמטים של תאריכים ויחידות מדידה (משקלים, אורכים) עשויים להיות לא עקביים.
  • במקרים מסוימים יש לספק נתונים חסרים ממקורות חיצוניים (למשל, מציאת מיקוד / מיקוד של כתובת באמצעות מקור נתונים חיצוני)
  • הנתונים צריכים להיות עקביים בין רשומות נתונים שונות אך קשורות (למשל לאותו אדם עשויים להיות תאריכי לידה שונים ברשומות או מערכי נתונים שונים).

במידת האפשר, יש לאמת נתונים מול מקור סמכותי (למשל, מידע עסקי מופנה אל מול מסד נתונים D&B כדי להבטיח דיוק).[3][4]

בהתחשב במגוון מקורות הנתונים (כגון מסדי נתונים, יישומים עסקיים) המספקים נתונים ופורמטים שהנתונים יכולים להגיע אליהם, הכנת הנתונים יכולה להיות די מורכבת. ישנם כלים וטכנולוגיות רבות[5] המשמשים להכנת נתונים. יש לאזן את עלות ניקוי הנתונים מול ערך הדיוק המשופר.

הכנת נתונים בשירות עצמי

[עריכת קוד מקור | עריכה]

כלים וטכנולוגיות מסורתיות, כגון שפות סקריפטים או כלי ETL ואיכות נתונים אינם מיועדים למשתמשים עסקיים. הם בדרך כלל דורשים כישורי תכנות או IT שאין לרוב המשתמשים העסקיים.

מספר חברות, כגון Paxata, Trifacta, Alteryx, Talend ו-Ataccama מספקות ממשקים חזותיים המציגים את הנתונים ומאפשרים למשתמש לחקור ישירות, לבנות, לנקות, להגדיל ולעדכן נתונים לדוגמה שסופקו על ידי המשתמש.

לאחר השלמת עבודת ההכנה, ניתן להפעיל את השלבים הבסיסיים על מערכי נתונים אחרים כדי לבצע את אותן פעולות. שימוש חוזר זה מספק הגברת פרודוקטיביות משמעותית בהשוואה לשיטות ידניות וקידוד ידני מסורתיות יותר להכנת נתונים.

הערות שוליים

[עריכת קוד מקור | עריכה]