Bài viết này cần thêm chú thích nguồn gốc để kiểm chứng thông tin. |
Bài viết hoặc đoạn này cần được wiki hóa để đáp ứng tiêu chuẩn quy cách định dạng và văn phong của Wikipedia. |
Phân tích website (Website analytics) là việc đo lường, thu thập, phân tích và báo cáo dữ liệu web nhằm mục đích hiểu và tối ưu hóa việc sử dụng web.[1] Tuy nhiên, phân tích website không chỉ là một quá trình đo lưu lượng truy cập web mà có thể được sử dụng như một công cụ để nghiên cứu thị trường và kinh doanh và để đánh giá và cải thiện hiệu quả của website. Các ứng dụng phân tích website cũng có thể giúp các công ty đo lường kết quả của các chiến dịch quảng cáo in hoặc quảng cáo truyền thống. Nó giúp người ta ước tính lưu lượng truy cập vào website thay đổi như thế nào sau khi ra mắt chiến dịch quảng cáo mới. Phân tích website cung cấp thông tin về số lượng khách truy cập vào một website và số lượt xem trang. Nó giúp đánh giá lưu lượng truy cập và xu hướng phổ biến hữu ích cho nghiên cứu thị trường.
Các dữ liệu thô thường có trong các báo cáo phân tích website:
Hầu hết các quy trình phân tích website các giai đoạn chủ yếu,[2] đó là:
Một chức năng thiết yếu khác được các nhà phân tích phát triển để tối ưu hóa các website là thử nghiệm.
Mục tiêu của thử nghiệm A / B là xác định và đề xuất các thay đổi đối với các website làm tăng hoặc tối đa hóa hiệu quả của kết quả quan tâm được kiểm tra theo thống kê.
Mỗi giai đoạn tác động hoặc có thể tác động (tức là, các ổ đĩa) giai đoạn trước hoặc sau đó. Vì vậy, đôi khi dữ liệu có sẵn để thu thập ảnh hưởng đến chiến lược trực tuyến. Những lần khác, chiến lược trực tuyến ảnh hưởng đến dữ liệu được thu thập.
Máy chủ web ghi lại một số giao dịch của họ trong một tệp nhật ký. Nó đã sớm nhận ra rằng các tệp nhật ký này có thể được đọc bởi một chương trình để cung cấp dữ liệu về mức độ phổ biến của website. Do đó phát sinh phần mềm phân tích nhật ký web.
Đầu những năm 1990, số liệu thống kê website chủ yếu bao gồm việc đếm số lượng yêu cầu của khách hàng (hoặc lượt truy cập) được thực hiện cho máy chủ web. Đây là một phương pháp hợp lý ban đầu, vì mỗi website thường bao gồm một tệp HTML duy nhất. Tuy nhiên, với việc giới thiệu hình ảnh trong HTML và các website kéo dài nhiều tệp HTML, số lượng này trở nên ít hữu ích hơn. Trình phân tích log thương mại thực sự đầu tiên được IPRO phát hành vào năm 1994.
Hai đơn vị đo lường đã được giới thiệu vào giữa những năm 1990 để đánh giá chính xác hơn lượng hoạt động của con người trên các máy chủ web. Đây là lượt xem trang và lượt truy cập (hoặc phiên). Một lượt xem trang được định nghĩa là một yêu cầu được gửi đến máy chủ web cho một trang, trái ngược với đồ họa, trong khi lượt truy cập được xác định là một chuỗi các yêu cầu từ một khách hàng được xác định duy nhất đã hết hạn sau một thời gian không hoạt động nhất định, thường là 30 phút. Lượt xem trang và lượt truy cập vẫn thường được hiển thị theo số liệu, nhưng khá thô sơ.
Sự xuất hiện của nhện và robot công cụ tìm kiếm vào cuối những năm 1990, cùng với các proxy web và địa chỉ IP được gán động cho các công ty lớn và ISP, khiến việc xác định khách truy cập của con người vào website trở nên khó khăn hơn. Các trình phân tích nhật ký đã phản hồi bằng cách theo dõi các lượt truy cập bằng cookie và bỏ qua các yêu cầu từ các con nhện đã biết.
Việc sử dụng rộng rãi bộ đệm web cũng gây ra sự cố cho phân tích tệp nhật ký. Nếu một người truy cập lại một trang, yêu cầu thứ hai thường sẽ được truy xuất từ bộ đệm của trình duyệt và do đó, máy chủ web sẽ không nhận được yêu cầu nào. Điều này có nghĩa là đường dẫn của người đó thông qua website bị mất. Bộ nhớ đệm có thể bị đánh bại bằng cách định cấu hình máy chủ web, nhưng điều này có thể dẫn đến hiệu suất bị giảm cho khách truy cập và tải lớn hơn trên các máy chủ.[3]
Những ưu điểm chính của phân tích tệp nhật ký qua việc gắn thẻ trang như sau:
Những lo ngại về tính chính xác của phân tích tệp nhật ký khi có bộ nhớ đệm và mong muốn có thể thực hiện phân tích website dưới dạng dịch vụ thuê ngoài, dẫn đến phương pháp thu thập dữ liệu thứ hai, gắn thẻ trang hoặc 'Lỗi web'.
Vào giữa những năm 1990, các bộ đếm Web thường được nhìn thấy - đây là những hình ảnh được đưa vào một website cho thấy số lần hình ảnh được yêu cầu, đó là ước tính về số lượt truy cập vào trang đó. Vào cuối những năm 1990, khái niệm này đã phát triển để bao gồm một hình ảnh nhỏ vô hình thay vì hình ảnh hiển thị và bằng cách sử dụng JavaScript để chuyển cùng với yêu cầu hình ảnh một số thông tin nhất định về trang và khách truy cập. Thông tin này sau đó có thể được xử lý từ xa bởi một công ty phân tích website và số liệu thống kê được tạo ra.
Dịch vụ phân tích website cũng quản lý quá trình gán cookie cho người dùng, có thể xác định duy nhất chúng trong lần truy cập và trong các lần truy cập tiếp theo. Tỷ lệ chấp nhận cookie khác nhau đáng kể giữa các website và có thể ảnh hưởng đến chất lượng dữ liệu được thu thập và báo cáo.
Thu thập dữ liệu website bằng máy chủ thu thập dữ liệu của bên thứ ba (hoặc thậm chí máy chủ thu thập dữ liệu nội bộ) yêu cầu máy tính của người dùng tra cứu thêm DNS để xác định địa chỉ IP của máy chủ thu thập. Đôi khi, sự chậm trễ trong việc hoàn thành tra cứu DNS thành công hoặc thất bại có thể dẫn đến dữ liệu không được thu thập.
Với sự phổ biến ngày càng tăng của các giải pháp dựa trên Ajax, một giải pháp thay thế cho việc sử dụng hình ảnh vô hình là thực hiện cuộc gọi trở lại máy chủ từ trang được kết xuất. Trong trường hợp này, khi trang được hiển thị trên trình duyệt web, một đoạn mã Ajax sẽ gọi lại cho máy chủ và chuyển thông tin về ứng dụng khách có thể được tổng hợp bởi một công ty phân tích web. Đây là một số cách bị thiếu sót bởi các hạn chế của trình duyệt trên các máy chủ có thể được liên hệ với các đối tượng XmlHttpRequest. Ngoài ra, phương pháp này có thể dẫn đến mức lưu lượng được báo cáo thấp hơn một chút, vì khách truy cập có thể ngăn trang tải xuống trong phản hồi giữa trước khi cuộc gọi Ajax được thực hiện.
Những ưu điểm chính của việc gắn thẻ trang qua phân tích tệp nhật ký như sau:
Phân tích logfile hầu như luôn được thực hiện trong nhà. Việc gắn thẻ trang có thể được thực hiện trong nhà, nhưng nó thường được cung cấp dưới dạng dịch vụ của bên thứ ba. Sự khác biệt kinh tế giữa hai mô hình này cũng có thể là một sự cân nhắc cho một công ty quyết định mua.
Giải pháp nào rẻ hơn để thực hiện tùy thuộc vào số lượng chuyên môn kỹ thuật trong công ty, nhà cung cấp được chọn, số lượng hoạt động được xem trên website, độ sâu và loại thông tin cần tìm và số lượng website riêng biệt cần thống kê.
Bất kể giải pháp nhà cung cấp hoặc phương pháp thu thập dữ liệu được sử dụng, chi phí phân tích và giải thích khách truy cập web cũng nên được đưa vào. Đó là, chi phí biến dữ liệu thô thành thông tin hành động. Điều này có thể là từ việc sử dụng các chuyên gia tư vấn bên thứ ba, thuê một nhà phân tích web có kinh nghiệm hoặc đào tạo một người trong nhà phù hợp. Một phân tích lợi ích chi phí sau đó có thể được thực hiện. Ví dụ: những gì tăng doanh thu hoặc tiết kiệm chi phí có thể đạt được bằng cách phân tích dữ liệu khách truy cập web?
Sử dụng dữ liệu đã thu thập được để chuyển hóa thành các thông tin hữu ích, phục vụ cho việc thực hiện các mục tiêu, chiến lược sau đó. Dữ liệu ban đầu có thể được chọn lọc, phân tích đánh giá để tham gia vào các phân tích điểm mạnh/ yếu, đánh giá đối thủ cạnh tranh, khách hàng tiềm năng, xác định các trang/mặt hàng được quan tâm, xu hướng tìm kiếm nội bộ website,... Một số ví dụ:
Định vị trí của khách hàng
Với định vị địa lý IP, có thể theo dõi vị trí của khách truy cập. Sử dụng cơ sở dữ liệu định vị địa lý IP hoặc API, khách truy cập có thể được định vị địa lý ở cấp thành phố, khu vực hoặc quốc gia.[5]
IP Intelligence là công nghệ ánh xạ Internet và phân loại địa chỉ IP theo các tham số như vị trí địa lý (quốc gia, vùng, bang, thành phố và mã bưu điện). Thế hệ đầu tiên của IP Intelligence được gọi là công nghệ nhắm mục tiêu theo địa lý hoặc định vị địa lý. Thông tin này được các doanh nghiệp sử dụng để phân khúc khách hàng trực tuyến trong các ứng dụng như quảng cáo trực tuyến, nhắm mục tiêu theo hành vi, nội địa hóa (hoặc nội địa hóa website), cá nhân hóa,...
Phân tích nhấp chuột
Phân tích nhấp chuột là một loại phân tích web đặc biệt chú ý đến các lần nhấp chuột.
Thông thường, phân tích nhấp chuột tập trung vào phân tích trên website. Biên tập viên của một website sử dụng phân tích nhấp chuột để xác định hiệu suất của website, quan sát nơi người dùng của website đang nhấp vào.
Ngoài ra, phân tích nhấp chuột có thể xảy ra theo thời gian thực hoặc "không thực", tùy thuộc vào loại thông tin được tìm kiếm. Thông thường, các biên tập viên trang nhất trên các trang truyền thông tin tức có lưu lượng truy cập cao sẽ muốn theo dõi trong thời gian thực để tối ưu hóa nội dung. Biên tập viên, nhà thiết kế hoặc các loại bên liên quan khác có thể phân tích các nhấp chuột trên khung thời gian rộng hơn để giúp họ đánh giá hiệu suất của các tác giả, các yếu tố thiết kế hoặc quảng cáo, v.v
Dữ liệu về các nhấp chuột có thể được thu thập theo ít nhất hai cách. Lý tưởng nhất là một lần nhấp chuột được "ghi lại" khi nó xảy ra và phương pháp này yêu cầu một số chức năng thu thập thông tin liên quan khi sự kiện xảy ra. Ngoài ra, người ta có thể đưa ra giả định rằng một lượt xem trang là kết quả của một lần nhấp.
Phân tích vòng đời khách hàng
Phân tích vòng đời khách hàng là một cách tiếp cận lấy khách hàng làm trung tâm để đo lường nằm trong phạm vi tiếp thị vòng đời. Lượt xem trang, lần nhấp và các sự kiện khác (như cuộc gọi API, quyền truy cập vào dịch vụ của bên thứ ba, v.v.) đều được gắn với một khách truy cập riêng lẻ thay vì được lưu trữ dưới dạng các điểm dữ liệu riêng biệt. Phân tích vòng đời khách hàng cố gắng kết nối tất cả các điểm dữ liệu vào kênh tiếp thị có thể cung cấp thông tin chuyên sâu về hành vi của khách truy cập và tối ưu hóa website.
Nhận biết mục tiêu doanh nghiệp: Mỗi công ty đều có những mục tiêu riêng, các bộ phận của doanh nghiệp đều hoạt động để đạt được mục tiêu đó, việc sử dụng website cũng vậy. Dữ liệu thu thập được không chỉ nói về các số liệu trong quá khứ mà còn nhìn được cách cải thiện website trong tương lai. Mục tiêu của doanh nghiệp cần: rõ ràng; công nghệ, phân tích và doanh nghiệp phải được căn chỉnh; vòng phản hồi phải được hoàn thành.
Xác định KPI dựa trên loại website: Không giống như số liệu, KPI được gắn với chiến lược kinh doanh và thường được đo bằng tỷ lệ của hai số liệu. Bằng cách chọn KPI dựa trên loại Website, doanh nghiệp có thể tiết kiệm cả thời gian và tiền bạc. Mặc dù các website có thể có nhiều hơn một chức năng, mỗi website thuộc về ít nhất một trong bốn loại chính - thương mại, tạo khách hàng tiềm năng, nội dung / phương tiện và dịch vụ hỗ trợ / tự phục vụ (McFadden, 2005):
Website type | KPIs |
---|---|
Thương mại (Commerce) |
|
Tăng khách hàng tiềm năng (Lead generation) |
|
Nội dung/ phương tiện truyền thông (Content/Media) |
|
Ủng hộ/dịch vụ tự thân (Support/self-service) |
|
Dựa vào mục tiêu doanh nghiệp và các KPIs để tạo ra chiến lược cho website.
Mỗi tổ chức có nhu cầu hoạt động và điểm chuẩn khác nhau để thành công, vì vậy các phân tích web hiệu quả nhất thường là những mục tiêu ưu tiên các mục tiêu cụ thể trên cơ sở từng trường hợp cụ thể. Các phép đo mà một tổ chức thấy hữu ích, do đó, phần lớn phụ thuộc vào kết quả mong muốn của nó - các công ty phi lợi nhuận quan tâm đến việc truyền bá nhận thức hơn là tạo doanh thu quảng cáo. Cách đơn giản nhất để hiểu các loại phân tích web khác nhau là sắp xếp chúng thành các loại trường hợp sử dụng rộng rãi, bao gồm:
Dùng để phân tích thông tin về khách hàng mục tiêu, giúp doanh nghiệp hiểu rõ hơn về tập khách hàng này, đồng thời xây dựng chiến lược truyền thông trực tuyến hiệu quả. Bằng cách thu thập dữ liệu nhân khẩu học như tuổi tác, giới tính, vị trí địa lý, nghề nghiệp, v.v., các tổ chức có thể xác định mức độ đáp ứng nhu cầu của cơ sở người dùng của họ. Một số số liệu phổ biến liên quan đến phân tích dữ liệu đối tượng bao gồm:
Kiểu phân tích này dùng để đánh giá cách người dùng tương tác với website, giao diện, điều hướng và các tính năng nội dung của website có thể giúp các tổ chức hợp lý hóa trải nghiệm người dùng và xác định các cơ hội cải tiến. Danh mục phân tích website này chủ yếu liên quan đến khối lượng lưu lượng truy cập của website và chất lượng của khách truy cập Trải nghiệm duyệt web. Các công ty muốn hiểu website nào nhận được lưu lượng truy cập nhiều nhất và giữ cho người dùng được đầu tư trong thời gian dài nhất. Một số số liệu phổ biến liên quan đến phân tích hành vi người dùng bao gồm:
Loại phân tích kiểm soát theo dõi hiệu suất tổng thể có thể giúp các tổ chức xác định các lỗi kỹ thuật và loại bỏ các rào cản đối với trải nghiệm duyệt web của người dùng của họ. Khách truy cập ít có khả năng dành thời gian trên một website có vấn đề về điều hướng và hiển thị, dẫn đến bỏ lỡ các cơ hội tiếp thị và bán hàng. Một số số liệu phổ biến liên quan đến phân tích hiệu suất website bao gồm:
Mặc dù hệ thống phân loại này giúp dễ dàng khái niệm hóa các loại phân tích web khác nhau và cách sử dụng của chúng, nhưng điều quan trọng cần lưu ý là hầu hết các chiến lược đều yêu cầu gói một số số liệu web khác nhau. Nhiều công cụ phân tích website phổ biến cho phép doanh nghiệp tổng hợp tất cả các loại dữ liệu trên một loạt các danh mục. Bí quyết là có thể nhận ra thông tin nào có liên quan đến nhu cầu duy nhất của một tổ chức.
Các công cụ phân tích website ngoài website đo lường đối tượng website tiềm năng của bạn. Chúng là các công cụ vĩ mô cho phép bạn nhìn thấy bức tranh lớn hơn về cách website của bạn so sánh với những người khác. Có hai loại kỹ thuật đạt được điều này:
Các công cụ phân tích website tại chỗ đo lưu lượng khách truy cập thực tế đến trên website của bạn. Họ có khả năng theo dõi các cam kết và tương tác mà khách truy cập của bạn có. Nó yêu cầu đặt một đoạn mã nhỏ (còn gọi là ‘thẻ ') mã JavaScript trên các website của bạn hoạt động như một đèn hiệu - nắm bắt thông tin khách truy cập, lưu trữ chúng dưới dạng cookie, sau đó truyền phát này đến các máy chủ thu thập dữ liệu trong thời gian thực.
Mục tiêu cơ bản của phân tích website là thu thập và phân tích dữ liệu liên quan đến lưu lượng truy cập web và các mẫu sử dụng. Dữ liệu chủ yếu đến từ bốn nguồn:[6]
Trong lịch sử, các nhà cung cấp giải pháp phân tích gắn thẻ trang đã sử dụng cookie của bên thứ ba được gửi từ tên miền của nhà cung cấp thay vì tên miền của website được duyệt. Cookie của bên thứ ba có thể xử lý khách truy cập vượt qua nhiều tên miền không liên quan trong website của công ty, vì cookie luôn được xử lý bởi các máy chủ của nhà cung cấp.
Tuy nhiên, về nguyên tắc, cookie của bên thứ ba cho phép theo dõi một người dùng cá nhân trên các website của các công ty khác nhau, cho phép nhà cung cấp phân tích đối chiếu hoạt động của người dùng trên các website nơi anh ta cung cấp thông tin cá nhân với hoạt động của mình trên các website khác mà anh ta cho rằng mình ẩn danh. Mặc dù các công ty phân tích website từ chối làm điều này, các công ty khác như các công ty cung cấp quảng cáo biểu ngữ đã làm như vậy. Do đó, những lo ngại về quyền riêng tư về cookie đã khiến một nhóm người dùng đáng chú ý chặn hoặc xóa cookie của bên thứ ba. Năm 2005, một số báo cáo cho thấy khoảng 28% người dùng Internet đã chặn cookie của bên thứ ba và 22% đã xóa chúng ít nhất mỗi tháng một lần.[7] Hầu hết các nhà cung cấp giải pháp gắn thẻ trang hiện đã chuyển sang cung cấp ít nhất tùy chọn sử dụng cookie của bên thứ nhất (cookie được gán từ tên miền phụ của máy khách).
Một vấn đề khác là xóa cookie. Khi phân tích website phụ thuộc vào cookie để xác định khách truy cập duy nhất, số liệu thống kê phụ thuộc vào cookie liên tục để giữ ID khách truy cập duy nhất. Khi người dùng xóa cookie, họ thường xóa cả cookie của bên thứ nhất và bên thứ ba. Nếu điều này được thực hiện giữa các tương tác với website, người dùng sẽ xuất hiện với tư cách là khách truy cập lần đầu tại điểm tương tác tiếp theo của họ. Nếu không có id khách truy cập liên tục và duy nhất, chuyển đổi, phân tích nhấp chuột và các số liệu khác phụ thuộc vào hoạt động của khách truy cập duy nhất theo thời gian, không thể chính xác.
Cookies được sử dụng vì địa chỉ IP không phải lúc nào cũng là duy nhất cho người dùng và có thể được chia sẻ bởi các nhóm lớn hoặc proxy. Trong một số trường hợp, địa chỉ IP được kết hợp với tác nhân người dùng để xác định chính xác hơn một khách truy cập nếu không có cookie. Tuy nhiên, điều này chỉ giải quyết được một phần vấn đề vì thường người dùng đằng sau máy chủ proxy có cùng tác nhân người dùng. Các phương pháp khác để xác định duy nhất một người dùng là thách thức về mặt kỹ thuật và sẽ giới hạn đối tượng có thể theo dõi hoặc sẽ bị coi là đáng ngờ. Cookies là tùy chọn được chọn [ai?] Vì chúng đạt mẫu số chung thấp nhất mà không sử dụng các công nghệ được coi là phần mềm gián điệp.
Vấn đề phòng khách sạn thường được xem là vấn đề đầu tiên thường gặp bởi những người dùng công cụ phân tích website. Vấn đề ở đây là người truy cập duy nhất trong mỗi ngày trong một tháng cộng lại không bằng với tổng số người truy cập duy nhất trong tháng đó. Đây là một vấn đề số học mà những người thiếu kinh nghiệm thường gặp. Hãy tưởng tượng một khách sạn với 2 căn phòng A và B:
Day 01 | Day 02 | Day 03 | Total | |
Room A | John | John | Mark | 2 Unique Users |
Room B | Mark | Anne | Anne | 2 Unique Users |
Total | 2 | 2 | 2 | ? |
Như bảng trên cho thấy, khách sạn này có hai người dùng duy nhất mỗi ngày trong 3 ngày. Tổng số người dùng duy nhất tính theo ngày sẽ là 6.
Mỗi phòng của khách sạn trong thời gian này có hai người dùng duy nhất, Tổng số người dùng duy nhất tính theo phòng sẽ là 4.
Thật ra chỉ có 3 vị khách đã ở trong khách sạn này. Vấn đề ở đây là một người ở 1 phòng trong 2 đêm sẽ được đếm 2 lần nếu tính theo từng ngày, nhưng sẽ chỉ tính 1 lần nếu nhìn vào toàn bộ khoảng thời gian. Bất kỳ phần mềm phân tích web nào cũng sẽ cộng lại đúng theo khoảng thời gian đã chọn, vì vậy có thể dẫn đến việc người dùng cố gắng so sánh các kết quả.
Có thể tốt khi biết rằng việc thu thập thông tin của bên thứ ba phải chịu bất kỳ giới hạn mạng và bảo mật nào được áp dụng. Các quốc gia, Nhà cung cấp dịch vụ và mạng riêng có thể ngăn dữ liệu truy cập website đến bên thứ ba. Tất cả các phương pháp được mô tả ở trên có vấn đề chính là dễ bị thao túng. Điều này có nghĩa là các phương thức này không chính xác và không an toàn (trong bất kỳ mô hình hợp lý nào về bảo mật). Vấn đề này đã được giải quyết trong một số bài báo, nhưng cho đến nay, các giải pháp được đề xuất trong các bài viết này vẫn chỉ là lý thuyết, có thể là do sự thiếu quan tâm của cộng đồng kỹ thuật hoặc vì lợi ích tài chính mà tình hình hiện tại cung cấp cho chủ sở hữu của các website lớn.
Có nhiều thuật ngữ được sử dùng thường xuyên trong các công cụ phân web: