Sử dụng MongoDB để lưu data sau khi Scrape bằng Scrapy

Thứ Ba, 05/05/2020

Tram Ho

Hey yoo,chào mọi người,hôm nay mình sẽ giới thiệu về cách lưu data sau khi Scrape vào mongoDB,chi tiết về project mình đã giới thiệu trong bài trước .
Link

Giới thiệu MongoDB

MongoDB là một loại cơ sở dữ liệu mã nguồn mở,thuộc loại NoSQL.
Là một loại cơ sở dữ liệu hướng document,data được lưu vào một nơi gọi là Collection,tương tự như bảng ở các hệ cơ sở dữ liệu như MySQL,PostgreSQL.
So với RDBMS thì trong MongoDB collection ứng với table, còn document sẽ ứng với row , MongoDB sẽ dùng các document thay cho row trong RDBMS.

Viết code cho pipeline

Chúng ta viết lại code cho pipeline,sử dụng pymongo(Một công cụ giúp tương tác với MongoDB qua Python.


import pymongo
from scrapy.exceptions import DropItem

class MongoDBPipeline(object):
    
    def __init__(self):
        connection = pymongo.MongoClient(
            'localhost',
            27017
        )
        db = connection["Mac"]
        self.collection = db["Item"]

    def process_item(self, item, spider):
        valid = True
        for data in item:
            if not data:
                valid = False
                raise DropItem("Missing {0}!".format(data))
        if valid:
            self.collection.insert(dict(item))
        return item

import pymongo

from scrapy.exceptions import DropItem

class MongoDBPipeline(object):

def __init__(self):

connection = pymongo.MongoClient(

'localhost',

27017

)

db = connection["Mac"]

self.collection = db["Item"]

def process_item(self, item, spider):

valid = True

for data in item:

if not data:

valid = False

raise DropItem("Missing {0}!".format(data))

if valid:

self.collection.insert(dict(item))

return item

Class MongoDBPipeline khởi tạo với hàm khởi tạo Init ra một đối tượng MongoClient có thuộc tính “localhost” và connect ở port 27017,chúng ta đặt tên cho database là “Mac” và tên của Collection và “Item”

Sau khi thêm đoạn code vừa rồi,ta thay tên của pipeline trong file settings thành :

ITEM_PIPELINES = {
   'code9to5mac.pipelines.MongoDBPipeline': 300,
}

ITEM_PIPELINES = {

'code9to5mac.pipelines.MongoDBPipeline': 300,

}

Chạy lại project,và sau đó kiểm tra trong MongoDB,ta chạy lệnh.

mongo

mongo

sau đó :

show dbs

show dbs

Ta có thể thấy database Mac đã được tạo

Okay,query nào.Đầu tiên là :

use Mac

use Mac

và sau đó :

db.Item.find().pretty()

1 2	db.Item.find().pretty()

Data đã được lưu như hình dưới :

Kết luận

Bài viết này mình đã giới thiệu về cách import data vào trong MongoDB từ Scrapy,bài tiếp theo mình sẽ giới thiệu về Scrapy Cluster,cảm ơn mọi người đã quan tâm.

Chia sẻ bài viết ngay

Nguồn bài viết : Viblo

Sử dụng MongoDB để lưu data sau khi Scrape bằng Scrapy

Giới thiệu MongoDB

Viết code cho pipeline

Kết luận

TikTok trở thành nền tảng mảng xã hội lớn thứ hai ở Nam Phi

Mất giá nhanh nhất sau 9 tháng ra mắt, iPhone 14 Pro Max tiếp tục phá đáy tại Việt Nam

Hướng dẫn sử dụng ngôn ngữ R cho người mới bắt đầu

10 plugin cần thiết của SublimeText dành cho các lập trình viên JavaScript