הכנת נתונים או הכנת מידע (באנגלית: Data preparation) היא פעולה של מניפולציה (או עיבוד מקדים) של נתונים גולמיים (שעשויים להגיע ממקורות שונים) לצורה שניתן לנתח בקלות ובדייקנות יתר.[1]
הכנת נתונים היא השלב הראשון בפרויקטים של ניתוח נתונים ויכולה לכלול משימות דיסקרטיות רבות כמו טעינת נתונים או קליטת נתונים, טיוב נתונים, ניקוי נתונים, ריבוד נתונים ואספקת נתונים.[2]
הנושאים שיש לטפל בהם מתחלקים לשתי קטגוריות עיקריות:
השלב הראשון הוא לקבוע מפרט מלא ומפורט של הפורמט של כל שדה נתונים ומה משמעות הערכים. שלב זה צריך לקחת בחשבון את:
נניח שיש שדה אלפביתי בן שני תווים המציין מיקום גאוגרפי. ייתכן שבמקור נתונים אחד קוד "EE" פירושו "אירופה" ובמקור נתונים אחר אותו קוד פירושו "אסטוניה". יהיה צורך לתכנן קבוצה חד משמעית של קודים ולתקן את הקוד בקבוצה אחת של רשומות בהתאם.
יתר על כן, ה"אזור הגאוגרפי" עשוי להתייחס לכל אחד מהכתובות למשל, כתובת למשלוח, כתובת לחיוב, כתובת שממנה סופקו הסחורה, מטבע חיוב או תקנות לאומיות החלות. נושאים אלו חייבים להיות מכוסים במפרט.
יכולות להיות כמה רשומות עם "X" או "555" בשדה זה. ברור שמדובר בנתונים לא חוקיים מכיוון שהם אינם תואמים את המפרט. אם יש רק מספר קטן של רשומות כאלה, אפשר לתקן אותן באופן ידני או אם הדיוק אינו חשוב, פשוט למחוק את הרשומות האלה מהקובץ. אפשרות נוספת תהיה ליצור קטגוריה "לא ידוע".
במידת האפשר, יש לאמת נתונים מול מקור סמכותי (למשל, מידע עסקי מופנה אל מול מסד נתונים D&B כדי להבטיח דיוק).[3][4]
בהתחשב במגוון מקורות הנתונים (כגון מסדי נתונים, יישומים עסקיים) המספקים נתונים ופורמטים שהנתונים יכולים להגיע אליהם, הכנת הנתונים יכולה להיות די מורכבת. ישנם כלים וטכנולוגיות רבות[5] המשמשים להכנת נתונים. יש לאזן את עלות ניקוי הנתונים מול ערך הדיוק המשופר.
כלים וטכנולוגיות מסורתיות, כגון שפות סקריפטים או כלי ETL ואיכות נתונים אינם מיועדים למשתמשים עסקיים. הם בדרך כלל דורשים כישורי תכנות או IT שאין לרוב המשתמשים העסקיים.
מספר חברות, כגון Paxata, Trifacta, Alteryx, Talend ו-Ataccama מספקות ממשקים חזותיים המציגים את הנתונים ומאפשרים למשתמש לחקור ישירות, לבנות, לנקות, להגדיל ולעדכן נתונים לדוגמה שסופקו על ידי המשתמש.
לאחר השלמת עבודת ההכנה, ניתן להפעיל את השלבים הבסיסיים על מערכי נתונים אחרים כדי לבצע את אותן פעולות. שימוש חוזר זה מספק הגברת פרודוקטיביות משמעותית בהשוואה לשיטות ידניות וקידוד ידני מסורתיות יותר להכנת נתונים.