Designing Time Series database with MongoDB

Wednesday, 11/03/2020

Tram Ho

In the process of making my IoT project on campus even though it was just beginning, I had some interesting problems. The first is that considering the use of SQL and NoSQL to store data, I think that compared to SQL, defining tables to store data does not seem to be a good solution in the development process. Because at first maybe the system only has a sensor to measure the humidity and then improve it to include the temperature sensor, creating a table to save will be complicated when querying between the tables and rewriting, the old data is processed. how ? . So I decided to use NoSql and the challenge this time was to design a database that stores time-series data with Mongodb. In this article I will mention how to design schema and how it affects memory in the read, write, update and delete that I have read.

What is Time-series data?

Time-series Data : is a series of data, usually collecting data continuously from the same source over a period of time. This analysis of data over time aims to track changes over time. Regardless of the industry, real-time querying, analysis and reporting needs. For a stock trader they need continuous data to run algorithms to analyze trends and identify opportunities.

There are 2 types of data in time-series data

The regular time series, the type that shoots data at regular intervals.
Unusual time series (events) are events that occasionally take one shot.

Design time-series schema

The first thing I want to mention is that there is no design that is suitable for all applications. It depends on the requirements of your project that you have to choose accordingly. To illustrate, let's say that every 1s of temperature sensors sends data to the server and you have to handle it.

Method 1: Save every incoming data into a document (One document per data point)

Suppose this is data about collecting moisture per second.

<span class="token punctuation">{</span>
  <span class="token string">"_id"</span> <span class="token punctuation">:</span> <span class="token function">ObjectId</span> <span class="token punctuation">(</span> <span class="token string">"5b7d95438aef9316840a494a"</span> <span class="token punctuation">)</span> <span class="token punctuation">,</span>
  <span class="token string">"hum"</span> <span class="token punctuation">:</span> <span class="token string">"80.9"</span> <span class="token punctuation">,</span>
  <span class="token string">"symbol"</span> <span class="token punctuation">:</span> <span class="token string">"humidity"</span> <span class="token punctuation">,</span>
  <span class="token string">"createdAt"</span> <span class="token punctuation">:</span> <span class="token string">"2020-03-01T16:54:28.003Z"</span>
<span class="token punctuation">}</span> <span class="token punctuation">,</span>
<span class="token punctuation">{</span>
  <span class="token string">"_id"</span> <span class="token punctuation">:</span> <span class="token function">ObjectId</span> <span class="token punctuation">(</span> <span class="token string">"5b7e7fc046e3641fcfd6b4dc"</span> <span class="token punctuation">)</span> <span class="token punctuation">,</span>
  <span class="token string">"hum : "</span> <span class="token number">81.1</span> " <span class="token punctuation">,</span>
  <span class="token string">"symbol"</span> <span class="token punctuation">:</span> <span class="token string">"humidity"</span> <span class="token punctuation">,</span>
  <span class="token string">"createdAt"</span> <span class="token punctuation">:</span> <span class="token string">"2020-03-01T16:54:29.003Z"</span>
<span class="token punctuation">}</span> <span class="token punctuation">,</span>
<span class="token operator">...</span>

{

"_id" : ObjectId ( "5b7d95438aef9316840a494a" ) ,

"hum" : "80.9" ,

"symbol" : "humidity" ,

"createdAt" : "2020-03-01T16:54:28.003Z"

} ,

{

"_id" : ObjectId ( "5b7e7fc046e3641fcfd6b4dc" ) ,

"hum : " 81.1 " ,

"symbol" : "humidity" ,

"createdAt" : "2020-03-01T16:54:29.003Z"

} ,

...

Method 2: Combine data and save each document for 1 minute (Time-based bucketing of one document per minute)

<span class="token punctuation">{</span>
    <span class="token string">"_id"</span> <span class="token punctuation">:</span> <span class="token function">ObjectId</span> <span class="token punctuation">(</span> <span class="token string">"5b5279d1e303d394db6ea0f8"</span> <span class="token punctuation">)</span> <span class="token punctuation">,</span> 
    <span class="token string">"hum"</span> <span class="token punctuation">:</span> <span class="token punctuation">{</span>
        <span class="token string">"0"</span> <span class="token punctuation">:</span> <span class="token string">"81.9"</span> <span class="token punctuation">,</span>
        <span class="token string">"1"</span> <span class="token punctuation">:</span> <span class="token string">"81.5"</span> <span class="token punctuation">,</span>
        <span class="token string">"2"</span> <span class="token punctuation">:</span> <span class="token string">"82.0"</span> <span class="token punctuation">,</span>
        …
        <span class="token string">"59"</span> <span class="token punctuation">:</span> <span class="token string">"82.0"</span>
    <span class="token punctuation">}</span> <span class="token punctuation">,</span>
   <span class="token string">"symbol"</span> <span class="token punctuation">:</span> <span class="token string">"humidity"</span> <span class="token punctuation">,</span>
   <span class="token string">"createdAt"</span> <span class="token punctuation">:</span> <span class="token string">"2020-03-01T17:41:10.008Z"</span>
<span class="token punctuation">}</span> <span class="token punctuation">,</span>
   <span class="token punctuation">{</span>
    <span class="token string">"_id"</span> <span class="token punctuation">:</span> <span class="token function">ObjectId</span> <span class="token punctuation">(</span> <span class="token string">"5b5279d1e303d394db6ea134"</span> <span class="token punctuation">)</span> <span class="token punctuation">,</span> 
    <span class="token string">"hum"</span> <span class="token punctuation">:</span> <span class="token punctuation">{</span>
        <span class="token string">"0"</span> <span class="token punctuation">:</span> <span class="token string">"81.7"</span> <span class="token punctuation">,</span>
        <span class="token string">"1"</span> <span class="token punctuation">:</span> <span class="token string">"80.4"</span> <span class="token punctuation">,</span>
        <span class="token string">"2"</span> <span class="token punctuation">:</span> <span class="token string">"82.46"</span> <span class="token punctuation">,</span>
        <span class="token operator">...</span>
       <span class="token string">"59"</span> <span class="token punctuation">:</span> <span class="token string">"81.5"</span>
    <span class="token punctuation">}</span> <span class="token punctuation">,</span>
    <span class="token string">"symbol"</span> <span class="token punctuation">:</span> <span class="token string">"humidity"</span> <span class="token punctuation">,</span>
    <span class="token string">"createdAt"</span> <span class="token punctuation">:</span> <span class="token string">"2020-03-01T17:42:10.008Z"</span>
<span class="token punctuation">}</span> <span class="token punctuation">,</span>
<span class="token operator">...</span>

{

"_id" : ObjectId ( "5b5279d1e303d394db6ea0f8" ) ,

"hum" : {

"0" : "81.9" ,

"1" : "81.5" ,

"2" : "82.0" ,

…

"59" : "82.0"

} ,

"symbol" : "humidity" ,

"createdAt" : "2020-03-01T17:41:10.008Z"

} ,

{

"_id" : ObjectId ( "5b5279d1e303d394db6ea134" ) ,

"hum" : {

"0" : "81.7" ,

"1" : "80.4" ,

"2" : "82.46" ,

...

"59" : "81.5"

} ,

"symbol" : "humidity" ,

"createdAt" : "2020-03-01T17:42:10.008Z"

} ,

...

Compare these 2 designs

Because I don't have much time to collect, I will use a statistics of the article I read to compare. Here is the article link: https://www.mongodb.com/blog/post/time-series-data-and-mongodb-part-2-schema-design-best-practices

They basically compared how the amount of stored data impacts storage size and affects memory based on data collected in 4 weeks.

The impact on Storage

Using design 1 seems to be quite understandable as it is like a row in a table. This design will create a large number of documents

This is a comparison of the number of documents

This is a comparison of data size (MB units) and storage size

As you can see, the data size in Design 1 is very memory intensive (note a little bit why the Data size is so much bigger than the Disk Storage Size because MongoDB's WiredTiger storage engine has compressed the data before saving it to disk. )

The impact on the memory usage

A large number of documents will not only increase the size of the data storage but also increase the size of the index. Unlike some key-value databases that position themselves, MongoDB provides extra indexes that give you more flexible access to your data, allowing you to optimize query performance. . In addition, saving indexes for fast queries also takes up memory as shown below, their indexing for document in the 4th week has a size of 103.03 MB already: v

Option 3: Size-based bucketing

This type of design is suitable for situations where data is not inserted regularly. In time-based applications such as IoT projects, sensor data can be generated at irregular intervals, meaning that some sensors can be activated under certain conditions and then provided. data for the database (sometimes sent in 1s, 15s sent in 1 time, etc.). In these situations, using method 2 may not seem like a good idea. The alternative solution is to save by size. With the size-based locking feature, we design the schema around a document with some conditions.

For example, we will design with a limit of 200 events per document or 1 day's expiry (whichever comes first)

<span class="token punctuation">{</span>
    _id <span class="token punctuation">:</span> <span class="token function">ObjectId</span> <span class="token punctuation">(</span> <span class="token punctuation">)</span> <span class="token punctuation">,</span>
    deviceid <span class="token punctuation">:</span> <span class="token number">1234</span> <span class="token punctuation">,</span>
    sensorid <span class="token punctuation">:</span> <span class="token number">3</span> <span class="token punctuation">,</span>
    nsamples <span class="token punctuation">:</span> <span class="token number">5</span> <span class="token punctuation">,</span>
    day <span class="token punctuation">:</span> <span class="token function">ISODate</span> <span class="token punctuation">(</span> <span class="token string">"2018-08-29"</span> <span class="token punctuation">)</span> <span class="token punctuation">,</span>
    first <span class="token punctuation">:</span> <span class="token number">1535530412</span> <span class="token punctuation">,</span>
    last <span class="token punctuation">:</span> <span class="token number">1535530432</span> <span class="token punctuation">,</span>
    samples <span class="token punctuation">:</span> <span class="token punctuation">[</span>
       <span class="token punctuation">{</span> val <span class="token punctuation">:</span> <span class="token number">50</span> <span class="token punctuation">,</span> time <span class="token punctuation">:</span> <span class="token number">1535530412</span> <span class="token punctuation">}</span> <span class="token punctuation">,</span>
       <span class="token punctuation">{</span> val <span class="token punctuation">:</span> <span class="token number">55</span> <span class="token punctuation">,</span> time <span class="token punctuation">:</span> <span class="token number">1535530415</span> <span class="token punctuation">}</span> <span class="token punctuation">,</span>
       <span class="token punctuation">{</span> val <span class="token punctuation">:</span> <span class="token number">56</span> <span class="token punctuation">,</span> time <span class="token punctuation">:</span> <span class="token number">1535530420</span> <span class="token punctuation">}</span> <span class="token punctuation">,</span>
       <span class="token punctuation">{</span> val <span class="token punctuation">:</span> <span class="token number">55</span> <span class="token punctuation">,</span> time <span class="token punctuation">:</span> <span class="token number">1535530430</span> <span class="token punctuation">}</span> <span class="token punctuation">,</span> 
       <span class="token punctuation">{</span> val <span class="token punctuation">:</span> <span class="token number">56</span> <span class="token punctuation">,</span> time <span class="token punctuation">:</span> <span class="token number">1535530432</span> <span class="token punctuation">}</span>
   <span class="token punctuation">]</span>
<span class="token punctuation">}</span>

{

_id : ObjectId ( ) ,

deviceid : 1234 ,

sensorid : 3 ,

nsamples : 5 ,

day : ISODate ( "2018-08-29" ) ,

first : 1535530412 ,

last : 1535530432 ,

samples : [

{ val : 50 , time : 1535530412 } ,

{ val : 55 , time : 1535530415 } ,

{ val : 56 , time : 1535530420 } ,

{ val : 55 , time : 1535530430 } ,

]

}

The example above is trying to limit the number of inserts added per document

sample <span class="token operator">=</span> <span class="token punctuation">{</span> val <span class="token punctuation">:</span> <span class="token number">59</span> <span class="token punctuation">,</span> time <span class="token punctuation">:</span> <span class="token number">1535530450</span> <span class="token punctuation">}</span>
day <span class="token operator">=</span> <span class="token function">ISODate</span> <span class="token punctuation">(</span> <span class="token string">"2018-08-29"</span> <span class="token punctuation">)</span>
db <span class="token punctuation">.</span> iot <span class="token punctuation">.</span> <span class="token function">updateOne</span> <span class="token punctuation">(</span> <span class="token punctuation">{</span> deviceid <span class="token punctuation">:</span> <span class="token number">1234</span> <span class="token punctuation">,</span> sensorid <span class="token punctuation">:</span> <span class="token number">3</span> <span class="token punctuation">,</span> nsamples <span class="token punctuation">:</span> <span class="token punctuation">{</span> $lt <span class="token punctuation">:</span> <span class="token number">200</span> <span class="token punctuation">}</span> <span class="token punctuation">,</span> day <span class="token punctuation">:</span> day <span class="token punctuation">}</span> <span class="token punctuation">,</span>
                 <span class="token punctuation">{</span>
                          $push <span class="token punctuation">:</span> <span class="token punctuation">{</span> samples <span class="token punctuation">:</span> sample <span class="token punctuation">}</span> <span class="token punctuation">,</span>
                          $min <span class="token punctuation">:</span> <span class="token punctuation">{</span> first <span class="token punctuation">:</span> sample <span class="token punctuation">.</span> time <span class="token punctuation">}</span> <span class="token punctuation">,</span>
                          $max <span class="token punctuation">:</span> <span class="token punctuation">{</span> last <span class="token punctuation">:</span> sample <span class="token punctuation">.</span> time <span class="token punctuation">}</span> <span class="token punctuation">,</span>
                          $inc <span class="token punctuation">:</span> <span class="token punctuation">{</span> nsamples <span class="token punctuation">:</span> <span class="token number">1</span> <span class="token punctuation">}</span> 
                  <span class="token punctuation">}</span> <span class="token punctuation">,</span> 
                  <span class="token punctuation">{</span> upsert <span class="token punctuation">:</span> <span class="token boolean">true</span> <span class="token punctuation">}</span> <span class="token punctuation">)</span>

sample = { val : 59 , time : 1535530450 }

day = ISODate ( "2018-08-29" )

db . iot . updateOne ( { deviceid : 1234 , sensorid : 3 , nsamples : { $lt : 200 } , day : day } ,

{

$push : { samples : sample } ,

$min : { first : sample . time } ,

$max : { last : sample . time } ,

$inc : { nsamples : 1 }

} ,

{ upsert : true } )

The data will be added until it reaches max of 200 then it will create a new document based on the command ( upsert: true ).

The advantage of this approach is that when we take data over time, for example, one day or several days will be extremely effective. Using this method is one of the most effective ways to store data. IoT in MongoDB.

These are the ways I synthesize hope to help people choose the right design for their application.

Reference article: https://www.mongodb.com/blog/post/time-series-data-and-mongodb-part-2-schema-design-best-practices

Share the news now

Source : Viblo

Designing Time Series database with MongoDB

What is Time-series data?

Design time-series schema

Method 1: Save every incoming data into a document (One document per data point)

Method 2: Combine data and save each document for 1 minute (Time-based bucketing of one document per minute)

Compare these 2 designs

The impact on Storage

The impact on the memory usage

Option 3: Size-based bucketing

TikTok becomes the second largest social platform in South Africa

The fastest depreciating after 9 months of launch, iPhone 14 Pro Max continues to break the bottom in Vietnam

Beginner's guide to R: Introduction

10 essential SublimeText plugins for JavaScript developers