Cloudflare đã công khai cáo buộc Perplexity AI về các hành vi thu thập dữ liệu (crawling) lừa đảo, vi phạm nghiêm trọng các giao thức thu thập dữ liệu web đã được thiết lập và cố ý vượt qua các cơ chế bảo mật mạng của website. Công ty an ninh mạng này đã ghi nhận bằng chứng Perplexity sử dụng các user agent không được tiết lộ và xoay vòng địa chỉ IP để truy cập nội dung từ các trang web đã chặn rõ ràng các trình thu thập dữ liệu được khai báo của Perplexity AI.
Phát Hiện Hoạt Động Thu Thập Dữ Liệu Lén Lút của Perplexity AI
Cơ Chế Hoạt Động Kép
Cuộc điều tra của Cloudflare đã làm rõ rằng Perplexity vận hành hai hệ thống thu thập dữ liệu khác biệt. Hệ thống đầu tiên là trình thu thập dữ liệu được khai báo, sử dụng user agent hợp lệ là “Perplexity-User”. Hệ thống này tạo ra từ 20 đến 25 triệu yêu cầu mỗi ngày, thể hiện hoạt động crawling minh bạch và tuân thủ.
Ngược lại, hệ thống thứ hai là một trình thu thập dữ liệu lén lút, giả mạo thành trình duyệt Chrome tiêu chuẩn trên macOS. Trình này chịu trách nhiệm cho 3 đến 6 triệu yêu cầu bổ sung mỗi ngày. Việc giả mạo này cho phép Perplexity che giấu danh tính thực sự của mình và tránh bị phát hiện bởi các cơ chế phòng thủ thông thường.
Kỹ Thuật Giả Mạo User Agent
Trình thu thập dữ liệu lén lút này sử dụng chuỗi user agent cụ thể để mạo danh lưu lượng truy cập trình duyệt hợp pháp. Chuỗi user agent được xác định là:
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36Chuỗi này được thiết kế để trông giống hệt như một trình duyệt Chrome thông thường trên hệ điều hành macOS, khiến việc phân biệt giữa lưu lượng truy cập của người dùng thực và bot trở nên khó khăn hơn đối với các hệ thống phòng thủ yếu kém.
Vượt Qua Rào Cản Bảo Mật Website
Thử Nghiệm Chống Thu Thập Dữ Liệu
Phương pháp thử nghiệm của Cloudflare bao gồm việc tạo ra nhiều tên miền mới được đăng ký với các tệp robots.txt nghiêm ngặt. Các tệp này chứa các chỉ thị User-agent: * Disallow: /, nhằm ngăn chặn hiệu quả tất cả các hoạt động thu thập dữ liệu tự động. Ngoài ra, các quy tắc Tường lửa ứng dụng web (WAF) cũng được thiết lập để chặn các trình thu thập dữ liệu chính thức của Perplexity.
Bất chấp các hạn chế rõ ràng này và các quy tắc WAF được triển khai, dịch vụ AI của Perplexity vẫn tiếp tục truy cập và lập chỉ mục nội dung từ các miền được bảo vệ này. Điều này chứng tỏ khả năng vượt qua các biện pháp bảo mật được thiết lập của Perplexity.
Minh Chứng Về Sự Bỏ Qua
Khi được hỏi về nội dung của các tên miền bị hạn chế, Perplexity đã cung cấp thông tin chi tiết về nội dung của chúng. Điều này cho thấy Perplexity đã thành công trong việc vượt qua các biện pháp bảo mật được triển khai, thu thập và xử lý dữ liệu từ các nguồn lẽ ra phải được bảo vệ. Đây là một mối đe dọa mạng đáng kể đối với quyền riêng tư và kiểm soát dữ liệu của chủ sở hữu website.
Vi Phạm Giao Thức Chuẩn và Mối Đe Dọa Mạng
Kỹ Thuật Né Tránh Nâng Cao
Cloudflare quan sát thấy rằng các hoạt động lén lút của Perplexity không chỉ giới hạn ở việc giả mạo user agent đơn giản. Trình thu thập dữ liệu không khai báo còn sử dụng các địa chỉ IP nằm ngoài các dải IP chính thức được Perplexity công bố và xoay vòng qua nhiều Số Hệ thống Tự trị (ASN) khác nhau. Kỹ thuật này được áp dụng để né tránh các cơ chế phát hiện và chặn dựa trên danh sách trắng/đen IP hoặc các mẫu truy cập quen thuộc.
Vi Phạm Tiêu Chuẩn Quốc Tế
Hành vi này của Perplexity AI vi phạm các tiêu chuẩn RFC 9309 (The Robots Exclusion Protocol) về thu thập dữ liệu web. RFC 9309 là một giao thức được thiết lập nhằm cho phép các chủ sở hữu trang web kiểm soát việc truy cập của bot vào các phần cụ thể của trang web của họ thông qua tệp robots.txt. Việc cố ý bỏ qua các chỉ thị trong robots.txt thể hiện một nỗ lực có hệ thống nhằm vượt qua các tùy chọn của chủ sở hữu trang web, gây ra rủi ro bảo mật nghiêm trọng.
Giải Pháp Phát Hiện Xâm Nhập và Phòng Ngừa của Cloudflare
Phương Pháp Phát Hiện Tinh Vi
Để đối phó với hành vi này, Cloudflare đã gỡ Perplexity khỏi danh sách bot được xác minh của mình. Đồng thời, họ đã triển khai các phương pháp phát hiện heuristic trong hệ thống quy tắc được quản lý của mình để chặn hoạt động thu thập dữ liệu lén lút này. Cuộc điều tra của Cloudflare bao trùm hàng chục nghìn tên miền và hàng triệu yêu cầu hàng ngày.
Cloudflare đã sử dụng các kỹ thuật học máy (machine learning) và phân tích tín hiệu mạng để xác định dấu vân tay của trình thu thập dữ liệu lừa đảo này. Sự kết hợp của các phương pháp phân tích nâng cao này cho phép Cloudflare không chỉ nhận diện các mẫu truy cập bất thường mà còn xây dựng hồ sơ cụ thể cho các bot né tránh, đảm bảo khả năng phát hiện xâm nhập hiệu quả.
Biện Pháp Ứng Phó và Bảo Vệ Khách Hàng
Các khách hàng đang sử dụng dịch vụ quản lý bot của Cloudflare được tự động bảo vệ thông qua các cơ chế thách thức và chặn hiện có. Ngoài ra, một quy tắc quản lý mới được tạo ra đặc biệt nhắm mục tiêu vào hoạt động thu thập dữ liệu AI đã được cung cấp cho tất cả người dùng, bao gồm cả khách hàng sử dụng gói miễn phí. Điều này giúp tăng cường đáng kể khả năng bảo mật mạng cho các website.
Thực Hành Minh Bạch: So Sánh Với OpenAI
Tuân Thủ Giao Thức và Chuẩn Web Bot Auth
Cloudflare đã đối chiếu các thực hành của Perplexity với các công ty AI khác, đặc biệt nhấn mạnh việc OpenAI tuân thủ các giao thức đã được thiết lập. Trình thu thập dữ liệu ChatGPT của OpenAI tôn trọng các chỉ thị trong tệp robots.txt và ngừng các hoạt động thu thập dữ liệu khi gặp phải các lệnh chặn mà không cố gắng truy cập bằng các phương pháp thay thế thông qua các user agent hoặc địa chỉ IP khác.
Hơn nữa, OpenAI cũng triển khai chuẩn Web Bot Auth mới nổi để xác thực yêu cầu HTTP. Điều này thể hiện các thực hành thu thập dữ liệu minh bạch, xây dựng lòng tin với các chủ sở hữu website và thúc đẩy một hệ sinh thái web lành mạnh hơn. Sự minh bạch này là yếu tố then chốt để xây dựng một môi trường an ninh mạng đáng tin cậy.
Các Yêu Cầu Đối Với Trình Thu Thập Dữ Liệu Hợp Pháp
Cloudflare nhấn mạnh rằng các trình thu thập dữ liệu web hợp pháp cần duy trì tính minh bạch bằng cách sử dụng user agent duy nhất, cung cấp các dải IP được khai báo rõ ràng, phục vụ các mục đích rõ ràng và tôn trọng các chỉ thị của trang web. Việc tuân thủ những nguyên tắc này là cần thiết để đảm bảo sự tôn trọng đối với quyền kiểm soát dữ liệu của chủ sở hữu website và duy trì tính toàn vẹn của Internet. Hoạt động phát hiện xâm nhập và quản lý bot hiệu quả phụ thuộc vào sự tuân thủ các chuẩn mực này.










