Trang web

Phần mềm mới Phát hiện Bots Cạo dữ liệu trang web

Build a Dynamic Web App Using Firebase Hosting - Firecasts

Build a Dynamic Web App Using Firebase Hosting - Firecasts
Anonim

Các trang web như bảng công việc phải đối mặt với một vấn đề dai dẳng: dữ liệu của họ liên tục bị lôi kéo bởi các rô bốt tự động.

Dữ liệu kết thúc trên các bảng công việc cạnh tranh khác, đã đánh cắp nội dung. Tuy nhiên, một công ty bảo mật có trụ sở tại Atlanta chuyên phát hiện các chương trình đã phát triển phần mềm có thể phát hiện những phần mềm cạo màn hình đó. và các chương trình khai phá dữ liệu.

[Đọc thêm: Cách xóa phần mềm độc hại khỏi PC Windows của bạn]

Sản phẩm chính của Pramana, HumanPresent, phát hiện các rô bốt tự động, ví dụ, nhập spam vào các biểu mẫu trên web hoặc đăng ký miễn phí tài khoản e-mail được sử dụng cho thư rác.

Pramana hiện đã phát triển một mô-đun gọi là "khai thác dữ liệu và ngăn chặn sàng lọc màn hình" cho HumanPresent. Nó hoạt động trên nhiều nguyên tắc tương tự như sản phẩm chính của nó nhưng đã được sửa đổi cho các kịch bản khai thác dữ liệu, David Crowder, Giám đốc điều hành của Pramana cho biết.

HumanPresent có thể phát hiện bot bằng cách nhận thấy sự khác biệt trong cách con người thường tương tác với Web và tương phản với cách thức hoạt động của chương trình. Nó xem xét hơn 30 chỉ số, chẳng hạn như đột quỵ, nhấp chuột và thời gian của các hành động đó.

HumanPresent xem xét các giao dịch đơn lẻ, nhưng mô-đun khai phá dữ liệu đã được sửa đổi để xem thời gian theo thời gian khi bot hoặc con người có mặt trên trang web, Crowder nói.

Các chương trình khai phá dữ liệu có xu hướng phá vỡ hoàn toàn giao diện người dùng của trình duyệt. Ví dụ, một bot có thể yêu cầu một trang Web với rất nhiều dữ liệu, nhưng không bao giờ cuộn hoặc nhấp chuột vào một trang. Nếu một loạt các trang được mở và xem theo cách đó, nó có thể có nghĩa là bot khai phá dữ liệu đã đến.

Pramana gán một ID duy nhất cho khách truy cập và sau khi phân tích hành vi của khách truy cập, có thể đưa ra quyết định có gắn nhãn hay không khách truy cập bot hay không. Có nhiều cách khác nhau mà một nhà điều hành trang web có thể chọn để xử lý tình huống.

Địa chỉ IP (Giao thức Internet) của máy tính của bot có thể bị chặn vĩnh viễn. Một trang web bán đấu giá xe hơi đang thử nghiệm mô-đun khai phá dữ liệu của Pramana đã quyết định di chuyển các bot bị nghi ngờ vào một "sandbox", nơi nó được phục vụ hoàn toàn sai.

"Chúng thực sự khai thác dữ liệu - nó chỉ là sai lầm", Crowder nói.

Các tùy chọn khác bao gồm nhắc khách truy cập trang web có thách thức hoặc nhiệm vụ, mà một số bot không thể hoàn thành.

Chi phí khai thác dữ liệu của các công ty rất đắt. Các công ty bán dữ liệu cao cấp sẽ thấy rằng đối thủ cạnh tranh của họ sẽ mua đăng ký và sau đó sử dụng rô bốt tự động để lấy cắp dữ liệu cho trang web của riêng họ. Trong một ví dụ, một trang web có gigabyte dữ liệu về giá xe đã qua sử dụng đã tìm thấy dữ liệu của họ đã được cạo và được bán trên eBay.

"Họ thực sự đang cạnh tranh với nội dung của riêng họ", Crowder nói. Các trang web có thiết kế kém khiến cho việc thu thập dữ liệu dễ dàng hơn nhiều. Crowder cho biết, trang web ô tô đã sử dụng có các URL (Uniform Resource Locators) có thể được sửa đổi tuần tự để hiển thị nhiều dữ liệu hơn. riêng biệt, Crowder nói.

Đối với dịch vụ SaaS (phần mềm như một dịch vụ), công nghệ của Pramana được tích hợp vào một ứng dụng Web và thông tin phiên được gửi trở lại để Pramana phân tích. Crowder nói Pramana đã có thể cắt giảm đáng kể thời gian trễ trong phiên bản mới nhất của nó. Đối với những khách hàng cần tốc độ cao hơn, thiết bị có sẵn.