Xử lý dữ liệu nói chung là việc thu thập dữ liệu và xử lý các mục dữ liệu để tạo thông tin có ý nghĩa."[1]
Theo khía cạnh này, có thể xem xử lý dữ liệu là một tập con của xử lý thông tin, sự thay đổi (xử lý) thông tin trong bất kỳ ngữ cảnh nào có thể phát hiện bởi một người quan sát.[note 1]
Thuật ngữ Xử lý dữ liệu (XLDL) cũng đã được sử dụng để chỉ một bộ phận trong tổ chức chịu trách nhiệm vận hành các ứng dụng xử lý dữ liệu.[2]
Xử lý dữ liệu có thể có các quá trình khác nhau, bao gồm:
Lịch sử Cục điều tra dân số Hoa Kỳ minh họa sự phát triển của xử lý dữ liệu từ thủ công thông qua các thủ tục điện tử.
Mặc dù việc sử dụng rộng rãi thuật ngữ ngày xử lý dữ liệu chỉ từ những năm chín mươi,[3] chức năng xử lý dữ liệu đã được thực hiện thủ công trong nhiều thiên niên kỷ. Ví dụ: sổ sách kế toán bao gồm các chức năng như đăng giao dịch và tạo báo cáo như bảng cân đối kế toán và báo cáo lưu chuyển tiền tệ. Các phương pháp hoàn toàn thủ công được tăng cường bằng cách áp dụng máy tính cơ học hoặc điện tử. Một người có công việc thực hiện các phép tính bằng tay hoặc sử dụng máy tính được gọi là " máy tính ".
Lịch điều tra dân số Hoa Kỳ năm 1890 là người đầu tiên thu thập dữ liệu của từng cá nhân thay vì hộ gia đình. Một số câu hỏi có thể được trả lời bằng cách đánh dấu vào ô thích hợp trên biểu mẫu. Từ năm 1850 đến 1880, Cục điều tra dân số đã sử dụng "một hệ thống kiểm đếm, do lý do số lượng kết hợp phân loại ngày càng tăng, ngày càng phức tạp. Chỉ có một số lượng kết hợp giới hạn có thể được ghi lại trong một lần kiểm tra, do đó cần phải xử lý lịch trình 5 hoặc 6 lần, đối với nhiều số đo độc lập. " [4] "Phải mất hơn 7 năm để công bố kết quả của cuộc điều tra dân số năm 1880" [5] bằng các phương pháp xử lý thủ công.
Thuật ngữ xử lý dữ liệu tự động được áp dụng cho các hoạt động được thực hiện bằng phương tiện của thiết bị ghi đơn vị, chẳng hạn như ứng dụng thiết bị thẻ đục lỗ của Herman Hollerith cho Tổng điều tra dân số Hoa Kỳ năm 1890. "Sử dụng thiết bị punchcard của Hollerith, Văn phòng Tổng điều tra đã có thể hoàn thành lập bảng hầu hết dữ liệu điều tra dân số năm 1890 trong 2 đến 3 năm, so với 7 đến 8 năm cho tổng điều tra dân số năm 1880.... Người ta ước tính rằng việc sử dụng hệ thống của Hollerith đã tiết kiệm khoảng 5 triệu đô la chi phí xử lý " [5] bằng 1890 đô la mặc dù có nhiều câu hỏi gấp đôi so với năm 1880.
Xử lý dữ liệu trên máy vi tính hoặc xử lý dữ liệu điện tử thể hiện sự phát triển sau này, với một máy tính được sử dụng thay vì một số thiết bị độc lập. Cục điều tra dân số lần đầu tiên sử dụng hạn chế các máy tính điện tử cho Tổng điều tra dân số Hoa Kỳ năm 1950, sử dụng hệ thống UNIVAC I,[4] được giao vào năm 1952.
Thuật ngữ xử lý dữ liệu chủ yếu được sử dụng bởi công nghệ thông tin thuật ngữ chung hơn (CNTT).[6] Thuật ngữ "xử lý dữ liệu" cũ hơn là gợi ý cho các công nghệ cũ hơn. Ví dụ, vào năm 1996, Hiệp hội quản lý xử lý dữ liệu (DPMA) đã đổi tên thành Hiệp hội các chuyên gia công nghệ thông tin. Tuy nhiên, các điều khoản là gần như đồng nghĩa.
Xử lý dữ liệu thương mại bao gồm một khối lượng lớn dữ liệu đầu vào, tương đối ít hoạt động tính toán và khối lượng đầu ra lớn. Ví dụ, một công ty bảo hiểm cần lưu giữ hồ sơ về hàng chục hoặc hàng trăm ngàn chính sách, in và gửi hóa đơn qua thư, và nhận và gửi thanh toán.
Trong khoa học và kỹ thuật, thuật ngữ xử lý dữ liệu và hệ thống thông tin được coi là quá rộng và thuật ngữ xử lý dữ liệu thường được sử dụng cho giai đoạn ban đầu sau đó là phân tích dữ liệu trong giai đoạn thứ hai của xử lý dữ liệu tổng thể.
Phân tích dữ liệu sử dụng các thuật toán chuyên ngành và các tính toán thống kê thường ít được quan sát trong một môi trường kinh doanh chung điển hình. Để phân tích dữ liệu, các bộ phần mềm như SPSS hoặc SAS[7] hoặc các đối tác miễn phí của chúng như DAP, gretl hoặc PSPP thường được sử dụng.