Semalt: Một siêu hướng dẫn để chặn spam giới thiệu trong Google Analytics của bạn

Nik Chaykovskiy, chuyên gia từ Semalt , đảm bảo rằng thư rác giới thiệu là một trong những vấn đề mà các quản trị web hiện đang phải đối mặt. Tình hình đã trở nên tồi tệ hơn trong những năm qua, có nghĩa là ai đó ở đâu đó kiếm được rất nhiều tiền từ việc tạo thư rác giới thiệu.

Thư rác ma và giới thiệu

Spam hiện đã được chuyển đến các báo cáo Google Analytics. Kẻ gửi thư rác tìm kiếm các lỗ hổng trong hệ thống để chúng có thể xuất hiện trong các báo cáo dữ liệu của trang web. Họ làm điều này với hy vọng rằng họ khơi dậy đủ sự tò mò đến mức mà quản trị trang web truy cập trang web của họ để xem lý do tại sao họ có trong báo cáo. Vấn đề là họ không tăng lưu lượng. Họ thậm chí không làm điều đó vì chúng là bot. Họ sử dụng mã theo dõi JavaScrip được Google Analytics sử dụng để tạo thông báo rằng có một lượt truy cập. Họ kết thúc những thống kê quan trọng như tỷ lệ thoát và các yếu tố khác được sử dụng để phân tích sự tham gia. Bắt buộc phải chặn thư rác giới thiệu nếu một người cần dữ liệu chính xác, đặc biệt nếu họ dựa vào đó để đưa ra quyết định tiếp thị.

Việc chặn thư rác giới thiệu trở nên khó khăn, đặc biệt là khi những kẻ gửi thư rác hoạt động rất nhanh, làm tăng tỷ lệ truy cập thư rác cũng như các nguồn. Điều đó có nghĩa là các quản trị web cần cải thiện nỗ lực họ loại bỏ và đưa vào danh sách đen các nguồn này. Điều này đặc biệt rắc rối với những người có trang web mới không nhận được nhiều lưu lượng truy cập hợp pháp. Sự gia tăng tỷ lệ thư rác trên các trang web như vậy sẽ gây ra nhiều sai lệch thậm chí có thể nhiều hơn số lần truy cập hàng ngày mà nó nhận được.

Làm thế nào dễ dàng?

Một trang tải hồ sơ như một lần truy cập. Kẻ gửi thư rác ma sử dụng mã theo dõi Google Analytics và gửi dữ liệu lưu lượng truy cập thẳng đến các báo cáo, từ đó tạo ra một lượt truy cập. Có thể mất 0,001 giây để tải một trang trên máy chủ ở đâu đó. Tuy nhiên, họ có thể đã buộc hơn 100 lượt truy cập giả mạo này vào tài khoản Google của nhiều trang web khác trên khắp. Nó khá dễ dàng để mua một máy chủ duy nhất. Miễn là những kẻ gửi thư rác chắc chắn về ROI, có rất nhiều thiệt hại họ có thể gây ra với họ.

Giải pháp ngắn gọn

Một số kỹ thuật đôi khi tiên tiến đến mức các giải pháp được sử dụng để chặn spam giới thiệu không hoạt động. Một trong số đó là dịch vụ trực tuyến bí ẩn có tên Darodar. Các phương pháp sau không xóa nó khỏi GA.

  • Tệp .htaccess. Nó không hoạt động vì spam ma không chạm vào trang web
  • Danh sách loại trừ giới thiệu. Nó thiếu cập nhật.
  • Bộ lọc loại trừ. Đây là phương pháp lỗi thời vì nó chỉ tập trung vào thư rác trong tương lai và không hồi tố cho các cơ sở dữ liệu thư rác trong quá khứ.

Bộ lọc Loại trừ gần như đã đến gần để loại bỏ spam giới thiệu Darodar. Hạn chế duy nhất của nó là nó không có danh sách spam giới thiệu liên tục và được cập nhật liên tục.

Mảnh ghép còn thiếu

Một giải pháp hành động để xác định và chặn dữ liệu giới thiệu và dữ liệu ma nên được cập nhật rất nhiều, đến từ cơ sở dữ liệu rộng hơn và hồi tố cho thông tin trong quá khứ. Dựa trên ba yếu tố cho một giải pháp tối ưu, đây là một yếu tố hoạt động.

Bước 1: Sử dụng Phân đoạn để loại trừ thư rác

Tốt hơn là sử dụng các phân đoạn vì chúng không thay đổi dữ liệu vĩnh viễn. Nếu một người vô tình lọc ra các giới thiệu thực trong khi sử dụng các bộ lọc, không có cách nào để lấy lại chúng. Có thể xây dựng trên dữ liệu cũ bằng cách sử dụng các phân đoạn, mặc dù nó đã ở đó bao lâu. Người ta cũng có thể áp dụng chúng hồi tố.

Bước 2: Duy trì danh sách loại trừ

Slack là một công cụ mà các quản trị web có thể sử dụng để theo dõi các nguồn giới thiệu. Nó thông báo cho người dùng về bất kỳ giới thiệu mới nào và cung cấp cho họ lời nhắc: liệu có nên đưa vào danh sách trắng hoặc danh sách đen một nguồn giới thiệu đáng ngờ hay không.

1. Slack nhận được tất cả các lượt giới thiệu và

2. Nó sử dụng một PHP để sắp xếp tất cả các kết quả theo thứ tự đếm, và sau đó lặp lại danh sách cuối cùng cho quản trị trang web để xem liệu có vẻ quen thuộc nào không. Nếu không,

3. Nó chuyển tiếp tất cả các thư rác bị nghi ngờ sang kênh chùng cung cấp cho người dùng lựa chọn giữa danh sách trắng hoặc danh sách đen. Bất cứ lựa chọn nào họ chọn, nó sẽ dẫn đến bước 4,

4. Nó chuyển hướng đến một trang xác minh bản án là xác nhận lựa chọn.

5. Slack sau đó lưu trữ và khóa tất cả những kẻ gửi thư rác được xác định trong cơ sở dữ liệu

6. Hiển thị cuối cùng của dữ liệu sạch sẽ ở định dạng regex. Sao chép và dán nó vào Google Analytics.

Slack cho phép các quản trị web cập nhật danh sách loại trừ ít nhất năm lần một ngày.

Trong thực tế, một số giải pháp có thể làm việc:

Mặc dù đây là một phương pháp đã được chứng minh, nó sẽ hoạt động tốt hơn nữa nếu quản trị trang web bổ sung nó bằng các kỹ thuật khác, chỉ để đảm bảo chúng bao gồm tất cả các cơ sở. Ngoài các giải pháp đã nói:

  • Nhấp vào hộp kiểm nhắc Google Analytics để loại trừ các bot và nhện đã biết,
  • Áp dụng "bao gồm bộ lọc tên máy chủ"
  • Sử dụng cookie

Bộ lọc bao gồm được đề cập ở trên đôi khi hiệu quả, nhưng không phải là giải pháp tốt nhất về lâu dài vì:

  • Việc giả mạo tên máy chủ không khó thực hiện và những kẻ gửi thư rác phân tích đang ngày càng sử dụng nó như một đối tượng dễ bị tấn công.
  • Nếu thiết lập sai, nó có thể sẽ lọc ra các tham chiếu thực.