Phân tích dữ liệu là một quá trình kiểm tra, làm sạch, chuyển đổi và mô hình hóa dữ liệu với mục tiêu khám phá thông tin hữu ích, thông báo kết luận và hỗ trợ ra quyết định. Phân tích dữ liệu có nhiều khía cạnh và cách tiếp cận, bao gồm các kỹ thuật đa dạng dưới nhiều tên khác nhau và được sử dụng trong các lĩnh vực kinh doanh, khoa học và khoa học xã hội khác nhau. Trong thế giới kinh doanh ngày nay, phân tích dữ liệu đóng vai trò giúp đưa ra quyết định khoa học hơn và giúp doanh nghiệp hoạt động hiệu quả hơn.[1]
Khai thác dữ liệu là một kỹ thuật phân tích dữ liệu cụ thể tập trung vào mô hình thống kê và khám phá tri thức cho mục đích dự đoán thay vì hoàn toàn mô tả, trong khi kinh doanh thông minh bao gồm phân tích dữ liệu dựa chủ yếu vào tổng hợp, tập trung chủ yếu vào thông tin kinh doanh.[2] Trong các ứng dụng thống kê, phân tích dữ liệu có thể được chia thành thống kê mô tả, phân tích dữ liệu khám phá (EDA) và phân tích dữ liệu xác nhận (CDA). EDA tập trung vào việc khám phá các tính năng mới trong dữ liệu trong khi CDA tập trung vào xác nhận hoặc làm sai lệch các giả thuyết hiện có. Phân tích dự đoán tập trung vào việc áp dụng các mô hình thống kê để dự báo hoặc phân loại dự đoán, trong khi phân tích văn bản áp dụng các kỹ thuật thống kê, ngôn ngữ và cấu trúc để trích xuất và phân loại thông tin từ các nguồn văn bản, một loại dữ liệu phi cấu trúc. Tất cả các phương thức bên trên là các dạng khác nhau của phân tích dữ liệu.
Tích hợp dữ liệu là tiền thân của phân tích dữ liệu, và phân tích dữ liệu được liên kết chặt chẽ để trực quan hóa dữ liệu và phổ biến dữ liệu.