Thu thập dữ liệu bằng Laravel, proxy và HTML Dom đơn giản

Tram Ho

Hôm nay mình sẽ giới thiệu các bạn làm sao có thể lấy được dữ liệu từ bất kỳ một trang web nào sử dụng laravel, proxy và html dom
Trong bài viết này mình sẽ lấy ví dụ là crawl product của amazon

Cài đặt

Đầu tiên các bạn vào site này download file simple_html_dom.php để vào thư mục Helpers của laravel chẳng hạn (thư mục mình tự tạo ra, bạn có thể bỏ vào bất cứ thu mục nào bạn muốn).
sau đó mở file composer.json ra và thêm đường dẫn file vừa tạo vào phần autoload

rồi chạy composer dumpautoload để file này được load vào thư viện của laravel.

Code

Để crawl dữ liệu mình sẽ tạo ra file command sau đó từ command gọi sang phần jobs của laravel. nếu dùng thế này mình có thể đẩy toàn bộ tác vụ crawl chạy tự động cũng như đẩy phần chạy vào queue rồi chúng ra có thể dùng supervisor để start 1 lúc nhiều process lên chạy cùng 1 lúc. nhưng mình khuyên là nên để tối đa 5 process chạy 1 lúc thôi, amazone sẽ block IP nào có nhiều request đến trong 1 khoảng thời gian ngắn (cái này có thể dùng public proxy hoặc private proxy để vượt qua được).

  • Đầu tiên bạn cần tạo 1 file AwsProductCrawler.php trong thưc mục app/Console/Commands có nội dung như sau:

file này có nội dung khá đơn giản, nó chỉ là lấy những merchants nào cần crawl có trong database thôi, trong bản merchant các bạn cần có merchant_id để có thể vào list của merchant này get toàn bộ product về.

Tiếp theo bạn cần tạo 1 file AwsCrawlerLink.php trong thư mục Jobs của laravel có nội dung sau:

File này có nhiệm vụ lấy toàn bộ url của product về, xong nó tiếp tục đẩy sang AwsCrawlerDetail để lấy chi tiết thông tin của products

function getContent có nội dung như sau:

Cuối cùng là phần lấy thông tin chi tiết của product, cũng là phần dài và khó nhất có nội dung như sau AwsCrawlerDetail.php:

Để chạy crawl này bạn chạy lệnh sau:

Proxy

Bạn để ý trong function getContent mình có để 1 tham số nữa là proxy, bạn có thể truyền proxy vào theo dạng http:192.162.1.15:8080 để ẩn ip server hiện tại của bạn đi.
proxy này kiếm ở đây nhé: https://hidemy.name/en/, mình đã mua code của trang này để xử dụng, các bạn có thể mua hoặc kiếm proxy từ một nguồn khác cũng được.

Chia sẻ bài viết ngay

Nguồn bài viết : Viblo