Web Scraping với Scrapy -Phần 1

Thứ Sáu, 01/05/2020

Tram Ho

Ai,Machine Learning đang là xu thế hot trong kỉ nguyên công nghệ 4.0. Để có thể làm việc với nó thì một trong những thứ quan trọng hàng đầu đó là data,với lượng data càng lớn và tính xác thực càng cao,thì càng tốt cho việc huấn luyện.
Trong bài viết này mình xin được giới thiệu cách thu thập data với Scrapy.

Cài đặt

Yêu cầu đầu tiên để sử dụng Scrapy đó là phải cài Python3 và Scrapy (tất nhiên rồi ^^ ) .

Python3

1.Mở terminal và nhập vào lệnh

sudo add-apt-repository ppa:jonathonf/python-3.6 &amp;&amp; sudo apt-get update

1 2	sudo add-apt-repository ppa:jonathonf/python-3.6 && sudo apt-get update

2.Install python 3.6 bằng lệnh

sudo apt-get install python3.6

1 2	sudo apt-get install python3.6

Scrapy

1.Install Scrapy bằng lệnh

pip install scrapy

1 2	pip install scrapy

Viết chương trình đầu tiên

Trong bài viết này mình sẽ dùng trang web https://9to5mac.com/ để demo cho việc Scraping.

Khởi tạo Project

1.Mở terminal,khởi tạo Project Scrapy đầu tiên bằng lệnh

scrapy startproject "tên project"

1 2	scrapy startproject "tên project"

2.Dùng cd để trỏ đến Project ,sau đó khởi tạo Spider bằng lệnh

scrapy genspider "tên spider" "tên domain"

1 2	scrapy genspider "tên spider" "tên domain"

ở đây mình đặt là :

scrapy genspider macspider 9to5mac.com

1 2	scrapy genspider macspider 9to5mac.com

Viết code cho Spider đầu tiên

1.Các bạn dùng IDE mở project lên,mở file Spider trong thư mục spiders .

2.Để bắt đầu mình sẽ import object Request bằng cú pháp :

from scrapy import Request

1 2	from scrapy import Request

3.Bắt đầu request bằng việc khởi tạo method start_requests.

def start_requests(self):
        for url in self.start_urls:
            yield Request(url = url,callback = self.parse_info)

def start_requests(self):

for url in self.start_urls:

yield Request(url = url,callback = self.parse_info)

Hàm callback parse_info sẽ chứa object là response của trang html.

Tạo method parse_info

def parse_info(self,response):
        y = response.text
        print(y)

def parse_info(self,response):

y = response.text

print(y)

Sau đó chúng ta chạy Spider bằng lệnh :

scrapy crawl macspider

1 2	scrapy crawl macspider

Như chúng ta thấy ở hình dưới ,Data đã được scrape về

Kết luận

Ô kê bạn ơi,qua bài viết này mình đã giới thiệu qua về Scrapy,bài viết tiếp theo mình sẽ giới thiệu về engine bên dưới của nó,cảm ơn mọi người đã quan tâm

VIỆT NAM VÔ ĐỊCH

1 2	VIỆT NAM VÔ ĐỊCH

Chia sẻ bài viết ngay

Nguồn bài viết : Viblo

Web Scraping với Scrapy -Phần 1

Cài đặt

Python3

Scrapy

Viết chương trình đầu tiên

Khởi tạo Project

Viết code cho Spider đầu tiên

Kết luận

TikTok trở thành nền tảng mảng xã hội lớn thứ hai ở Nam Phi

Mất giá nhanh nhất sau 9 tháng ra mắt, iPhone 14 Pro Max tiếp tục phá đáy tại Việt Nam

Hướng dẫn sử dụng ngôn ngữ R cho người mới bắt đầu

10 plugin cần thiết của SublimeText dành cho các lập trình viên JavaScript