Hướng dẫn cào dữ liệu từ nguồn trên web với Puppeteer

Tram Ho

Hôm trước có dịp đi xe bus trong lúc chờ tàu điện Nhổn ga Hà Nội, trên xe mình gặp một ông cụ khoảng 70 tuổi tóc bạc trắng đang cúi gằm mặt vào 1 quyển sổ toàn những con số 2 chữ số rồi các ô đánh dấu khoanh tròn nhập nhằng bla bla. Hỏi thăm mới biết cụ đang phân tích về kết quả sổ xố và việc này đã diễn ra được 10 năm rồi kết quả là cụ đã viết kín quyển sổ dày cộp.

Vậy nên mình quyết định sẽ hướng dẫn sử dụng puppeteer để crawl/scraping data xổ số miền bắc(2007-2021) từ trang https://xoso.com.vn/ với mục đích là sẽ sử dụng lượng data này trong một bài viết sắp tới(tiết lộ luôn là sắp có một project phân tích kết quả xổ số miền bắc cho anh em nào thích ngâm cứu lĩnh vực “số học”).

First, What’s Puppeteer:

Puppeteer is a Node library which provides a high-level API to control Chrome or Chromium over the DevTools Protocol. Puppeteer runs headless by default, but can be configured to run full (non-headless) Chrome or Chromium.

Tạm dịch:

Puppeteer là một thư viện Node cung cấp API cấp cao để điều khiển Chrome hoặc Chromium qua Giao thức DevTools . Puppeteer chạy headless theo mặc định, nhưng có thể được định cấu hình để chạy Chrome hoặc Chromium đầy đủ (non-headless).

Để sử dụng puppeteer cơ bản thì cần biết một số kiến thức sau:

Nodejs.
Javascript basic(Query Selector, Find Element).
Async/await hoặc promises.
Trước tiên thì chúng ta cần khởi tạo một nodejs project. Với các thông tin tùy ý các bạn nhé. Ở đây mình dùng npm init và tạo ra project với thông tin trong package.json như sau.

Các bạn nhớ run thêm npm i lowdb puppeteer để cài lowdbpuppeteer nữa.

Giờ ở root folder tạo một file db.js với nội dung.

db.js đóng vai trò như một database adapter sẽ tự tạo ra file database.json nếu nó chưa tồn tại và lưu trữ vào đó.

Tiếp theo chúng ta tạo file app.js để sử dụng puppeteer.

Sử dụng require để import các module.

Tiếp theo cần một function để sleep(mục đích mình sẽ giải thích ở dưới nhé).

Tạo một async function runCrawl như sau.

Giải thích code trên
Khởi tạo một browser với options ignoreHTTPSErrors: true để đề phòng cert SSL có vấn đề, headless: false để tắt chế độ chạy headless(để check xem có lỗi gì xảy ra không).

Tạo một page mới để sử dụng các api dưới đây.

page.goto(url) dùng để navigate tới một url, mà hiện tại mình để một vòng lặp infinity để sẽ lặp liên tục theo một khoảng thời gian sleep mà mình đã nhắc ở trên. Việc lặp liên tục để crawl tool sẽ chạy lại và lấy được dữ liệu kết quả xổ số miền bắc mới nhất khi nó có. Hiện mình để 60000ms(60 giây) một lần.

page.evaluate(callback) đây là api quan trọng vì khi sử dụng nó ta có thể gọi các api, function javascript trực tiếp trong browser, tưởng tượng rằng các đoạn code javascript trong callback sẽ được chạy trong browser của puppeteer khởi tạo. Nên chúng ta có thể sử dụng document.querySelector, document.querySelectorAll, document.findElementById,… để lấy ra các element,node trong html để sử dụng.

Tiếp theo check xem đã quay thưởng xong chưa, nếu giải khuyến khích vẫn có mục chưa quay xong thì chờ 60000ms và bỏ qua vòng lặp.

Tiếp theo nếu không có vấn đề gì thì ghi dữ liệu vào database.

Cuối cùng đoạn này là khi lấy xong dữ liệu một ngày thì sẽ tiếp tục sang ngày tiếp theo.

Nhớ thêm vào đoạn gọi hàm runCrawl() để chạy chương trình. Tổng thể file app.js.

Giờ chỉ cần mở cmd và chạy node app.js là sẽ thấy browser được mở lên và bắt đầu crawl data kết quả xổ số miền bắc rồi, tuy nhiên quá trình lấy dữ liệu từ 2007 tới 2021 sẽ hơi lâu vì lượng data trong 15 năm cũng không hề ít. Vậy nên để tối ưu thì chúng ta dừng chương trình lại và xóa file database.json đi.

Quay lại đoạn khởi tạo browser và sửa headless: true để cho browser chạy ở chế độ headless như dưới.

Chúng ta nên để nodejs app chạy ngầm với một trình quản lý process như pm2 . Mở cmd và run npm i pm2 -g để cài đặt pm2 global
pm2 start app.js
lên máy. Tiếp theo dùng pm2 để chạy với pm2 global
pm2 start app.js
. Cuối cùng ngồi thưởng thức tách cafe và chờ kết quả trong khoảng vài tiếng tùy tốc độ máy. Chúng ta có thể cài pm2 lên vps để chạy trên vps.

Các bạn có thể mở file database.json để kiểm tra tiến độ, tới khi nào thấy file không được update thêm thì có vẻ crawl đã tới thời điểm hiện tại là 2021 rồi, giờ cứ để đó nó sẽ update từng ngày. Copy data từ đây ra và convert qua excel hay csv để import hay nghịch ngợm thôi =)).

Đây là file database.json sau 1 phút crawl.

Source code: https://github.com/quangnv13/xsmb-crawl-tool.

Chia sẻ bài viết ngay

Nguồn bài viết : Viblo