Chuỗi thời gian là gì?

Tram Ho

Chuỗi thời gian

Chuỗi thời gian (time series) là một chuỗi các điểm dữ liệu xảy ra theo thứ tự liên tiếp trong một khoảng thời gian. Một chuỗi thời gian sẽ theo dõi chuyển động của các điểm dữ liệu đã chọn (chẳng hạn như giá của chứng khoán) trong một khoảng thời gian xác định.

Ứng dụng của chuỗi thời gian trải khắp các ngành công nghiệp khác nhau như: quan sát hoạt động sóng điện trong não, đo lượng mưa, dự báo giá cổ phiếu, theo dõi doanh số bán lẻ hàng năm, người đăng ký hàng tháng, nhịp tim mỗi phút,…

Dữ liệu chuỗi thời gian là tập hợp các quan sát thu được thông qua các phép đo lặp lại theo thời gian. Dữ liệu chuỗi thời gian ở khắp mọi nơi, vì thời gian là thành phần của mọi thứ mà chúng ta có thể nhận biết được.

Các thành phần của chuỗi thời gian

Một dữ liệu chuỗi thời gian thường được phân rã thành 4 thành phần con sau:

  • Xu hướng (trend): thành phần này chỉ ra xu hướng tổng quan của dữ liệu theo thời gian: lên hoặc xuống, tăng hoặc giảm. Chẳng hạn như lạm phát làm giá cả trung bình luôn có xu hướng tăng.
  • Mùa vụ (seasonality): thành phần chỉ ra các xu hướng theo mùa, theo tháng, theo quý,… Ví dụ:

    – Các sự kiện xảy ra tự nhiên, như biến động thời tiết

    – Thủ tục kinh doanh hoặc hành chính, như bắt đầu hoặc kết thúc năm tài chính.

    – Các sự kiện trên lịch, chẳng hạn như số ngày thứ Hai mỗi tháng hoặc các ngày lễ thay đổi theo từng năm.

  • Chu kì (cycle): thành phần chu kỳ, nó khác yếu tố mùa vụ ở chỗ thành phần này có sự vận động trong khoảng thời gian dài hơn (nhiều năm).
  • Yếu tố bất thường (Irregular remainder): hay còn gọi là nhiễu trắng (white noise) thành phần nhiễu còn lại sau khi trích xuất hết các thành phần ở trên, nó chỉ ra sự bất thường của các điểm dữ liệu.
    image.png

Thay vì đưa ra dự báo trên dữ liệu gốc, là một đường nhìn rất gập ghềnh và khó dự đoán, ta thực hiện trên các thành phần con nhìn có tính quy luật với xu hướng vận động rõ ràng hơn rồi kết hợp các thành phần này lại với nhau. Cycle chỉ ra xu hướng vận động trong một khoảng thời gian dài (thông thường chu kỳ rơi vào 7 năm hoặc hơn), do dữ liệu của chúng ta không trải đủ rộng nên chúng ta sẽ chỉ còn quan tâm đến 3 thành phần còn lại là Trend, Seasonality và Irregular remainder.

Ví dụ về dữ liệu chuỗi thời gian

Quan sát biểu đồ sự thay đổi giá cổ phiếu dưới đây:
image.png
Trong biểu đồ trên, thời gian là trục đo lường sự thay đổi giá cổ phiếu. Trong đầu tư, một chuỗi thời gian theo dõi chuyển động của các điểm dữ liệu, chẳng hạn như giá của chứng khoán trong một khoảng thời gian xác định với các điểm dữ liệu được ghi lại theo các khoảng thời gian đều đặn. Điều này có thể được theo dõi trong thời gian ngắn (chẳng hạn như giá chứng khoán vào giờ trong suốt một ngày làm việc) hoặc dài hạn (chẳng hạn như giá chứng khoán vào lúc kết thúc ngày cuối cùng của mỗi tháng trong suốt 5 năm).

Một ví dụ quen thuộc khác về dữ liệu chuỗi thời gian là theo dõi sức khỏe của bệnh nhân, chẳng hạn như trong điện tâm đồ (ECG), theo dõi hoạt động của tim để cho biết liệu nó có hoạt động bình thường hay không.
image.png

Ngoài việc được ghi lại theo các khoảng thời gian thông thường, dữ liệu chuỗi thời gian có thể được ghi lại bất cứ khi nào một sự kiện nào đó xảy ra, chẳng hạn như việc ghi logs trong lập trình. Logs sẽ lưu lại các sự kiện, quy trình, thông báo và giao tiếp giữa các ứng dụng phần mềm và hệ điều hành.
image.png

Dữ liệu chuỗi thời gian được sử dụng như thế nào?

Dữ liệu chuỗi thời gian được thu thập, lưu trữ, trực quan hóa và phân tích cho các mục đích khác nhau trên các lĩnh vực khác nhau:

  • Trong khai phá dữ liệu, nhận dạng mẫu và học máy, phân tích chuỗi thời gian được sử dụng để phân cụm, phân loại, truy vấn theo nội dung, phát hiện bất thường và các hoạt động dự báo.
  • Trong xử lý tín hiệu, kỹ thuật điều khiển và kỹ thuật truyền thông, dữ liệu chuỗi thời gian được sử dụng để phát hiện và ước tính tín hiệu.
  • Trong thống kê, kinh tế lượng, tài chính định lượng, địa chấn học, khí tượng học và địa vật lý, phân tích chuỗi thời gian được sử dụng để dự báo.

Dữ liệu chuỗi thời gian có thể được hiển thị trực quan trong các loại biểu đồ khác nhau để tạo điều kiện khai thác thông tin chuyên sâu, phân tích xu hướng và phát hiện bất thường.

Dữ liệu chuỗi thời gian được sử dụng trong phân tích chuỗi thời gian (theo lịch sử hoặc thời gian thực) và dự báo chuỗi thời gian để phát hiện và dự đoán các mẫu. Sau đây là tổng quan ngắn gọn về từng loại.

Phân tích chuỗi thời gian

Phân tích chuỗi thời gian (time series analysis) là một phương pháp phân tích một loạt các điểm dữ liệu được thu thập trong một khoảng thời gian. Trong phân tích chuỗi thời gian, các điểm dữ liệu được ghi lại theo các khoảng thời gian đều đặn trong một giai đoạn nhất định, thay vì ngắt quãng hoặc ngẫu nhiên.

Phân tích chuỗi thời gian là việc sử dụng các phương pháp thống kê để phân tích dữ liệu; trích xuất các thống kê và đặc điểm có ý nghĩa về dữ liệu. Điều này giúp xác định các xu hướng, chu kỳ và sự khác biệt theo mùa để hỗ trợ dự đoán một sự kiện trong tương lai.

Để tìm hiểu thêm về việc phân tích chuỗi thời gian, các bạn có thể tham khảo thêm ở đây: https://machinelearningcoban.com/tabml_book/ch_data_processing/timeseries_data.html

Dự báo chuỗi thời gian

Dự báo chuỗi thời gian sử dụng thông tin liên quan đến các giá trị lịch sử và các mẫu liên quan để dự đoán hoạt động trong tương lai.

Để dự báo được, mô hình chuỗi thời gian (time series modeling) liên quan đến việc làm việc trên dữ liệu thời gian để rút ra những tri thức giúp đưa ra quyết định. Các mô hình chuỗi thời gian là các mô hình rất hữu ích khi chúng ta có dữ liệu thời gian tương quan.

Dự báo chuỗi thời gian sẽ được đề cập cụ thể trong bài viết tiếp theo.

Tham khảo

  1. Investopedia. What Is a Time Series and How Is It Used to Analyze Data?
  2. influxdata. What is time series data?
  3. Nathan. Cơ Bản Về Lớp Giải Thuật Time Series Forecasting.
  4. Phạm Đình Khánh. Khoa học dữ liệu.
Chia sẻ bài viết ngay

Nguồn bài viết : Viblo