Thu thập dữ liệu là quá trình thu thập và đo lường thông tin về các biến được nhắm mục tiêu trong một hệ thống đã được thiết lập, sau đó cho phép một người trả lời các câu hỏi có liên quan và đánh giá kết quả. Thu thập dữ liệu là một thành phần của nghiên cứu trong tất cả các lĩnh vực nghiên cứu bao gồm khoa học vật lý và xã hội, nhân văn,[2] và trong kinh doanh. Trong khi các phương pháp thay đổi theo kỷ luật, sự nhấn mạnh vào việc đảm bảo bộ sưu tập chính xác và trung thực vẫn giống nhau. Mục tiêu của tất cả việc thu thập dữ liệu là thu thập bằng chứng chất lượng cho phép phân tích dẫn đến việc đưa ra các câu trả lời thuyết phục và đáng tin cậy cho các câu hỏi đã được đặt ra.
Bất kể lĩnh vực nghiên cứu hoặc ưu tiên xác định dữ liệu (định lượng hoặc định tính), thu thập dữ liệu chính xác là điều cần thiết để duy trì tính toàn vẹn của nghiên cứu. Việc lựa chọn các công cụ thu thập dữ liệu phù hợp (hiện có, sửa đổi hoặc mới được phát triển) và các hướng dẫn được phân định rõ ràng để sử dụng đúng cách của dữ liệu làm giảm khả năng xảy ra lỗi đo lường.
Một quy trình thu thập dữ liệu chính thức là cần thiết vì nó đảm bảo rằng dữ liệu được thu thập đều được xác định và chính xác. Bằng cách này, các quyết định tiếp theo sẽ dựa trên các lập luận thể hiện trong các phát hiện được thực hiện bằng cách sử dụng dữ liệu hợp lệ.[3] Quá trình này cung cấp cả một đường cơ sở để đo lường và trong một số trường hợp nhất định, chỉ ra những gì cần cải thiện.
Có 5 phương pháp thu thập dữ liệu phổ biến; khảo sát kết thúc và các câu đố, khảo sát và câu hỏi kết thúc mở, phỏng vấn 1 đối 1, các nhóm tập trung và quan sát trực tiếp.[4]
Lý do chính để duy trì tính toàn vẹn dữ liệu là để hỗ trợ quan sát các lỗi trong quy trình thu thập dữ liệu. Những lỗi đó có thể được thực hiện có chủ ý (cố ý làm sai lệch) hoặc không cố ý (lỗi ngẫu nhiên hoặc hệ thống).
Có hai cách tiếp cận có thể bảo vệ tính toàn vẹn dữ liệu và bảo đảm giá trị khoa học của kết quả nghiên cứu được phát minh bởi Craddick, Crawford, Rhodes, Redican, Rukenbrod và Laws năm 2003:
Trọng tâm chính của đảm bảo chất lượng là phòng ngừa mà chủ yếu là một hoạt động hiệu quả chi phí để bảo vệ tính toàn vẹn của việc thu thập dữ liệu. Tiêu chuẩn hóa giao thức thể hiện tốt nhất hoạt động hiệu quả chi phí này, được phát triển trong một hướng dẫn thủ tục toàn diện và chi tiết để thu thập dữ liệu. Nguy cơ không xác định được các vấn đề và sai sót trong quá trình nghiên cứu rõ ràng là do các hướng dẫn bằng văn bản là kém. Được liệt kê là một số ví dụ về những thất bại như vậy:
Vì các hành động kiểm soát chất lượng xảy ra trong hoặc sau khi thu thập dữ liệu, tất cả các chi tiết đều được ghi lại cẩn thận. Cần có một cấu trúc truyền thông được xác định rõ ràng là tiền đề để thiết lập các hệ thống giám sát. Sự không chắc chắn về luồng thông tin không được khuyến nghị vì cấu trúc truyền thông được tổ chức kém dẫn đến giám sát lỏng lẻo và cũng có thể hạn chế các cơ hội phát hiện lỗi. Kiểm soát chất lượng cũng chịu trách nhiệm xác định các hành động cần thiết để sửa chữa các hoạt động thu thập dữ liệu bị lỗi và cũng giảm thiểu các sự cố như vậy trong tương lai. Một nhóm có nhiều khả năng không nhận ra sự cần thiết phải thực hiện các hành động này nếu quy trình của họ được viết một cách mơ hồ và không dựa trên phản hồi hoặc giáo dục.
Vấn đề trong việc thu thập dữ liệu đòi hỏi phải hành động kịp thời bao gồm: