Áp dụng mạng nơ-ron cho việc sửa từ tiếng Khmer phần I

Chủ Nhật, 02/02/2020

Tram Ho

Vào năm 2019, có một thuật toán đột phá trong lĩnh vực NLP do Google phát triển có tên là BERT (Đại diện bộ mã hóa hai chiều từ Transformers). Bằng cách sử dụng kỹ thuật mạng thần kinh và đào tạo hàng triệu câu, BERT có thể lưu trữ kết quả tốt nhất có thể được sử dụng cho nhiều nhiệm vụ NLP khác bằng cách chỉ cần thêm một vài lớp vào mô hình cốt lõi (chuyển giao học tập). Hơn nữa là tốt nhất cho Dự đoán câu tiếp theo (NSP) trong đó google chủ yếu triển khai nó để giải quyết đề xuất văn bản trong công cụ tìm kiếm của họ. Tuy nhiên, chúng tôi sẽ không áp dụng BERT cho vấn đề của mình, nhưng hy vọng chúng tôi có thể sử dụng kỹ thuật của nó để giải quyết việc sửa từ tiếng Khmer.

Kế hoạch tấn công

Hãy chia nhỏ các bước để giải quyết thách thức này:

Thu thập dữ liệu
Chọn một mô hình học máy
Chuẩn bị dữ liệu
Xây dựng và đào tạo một mô hình
Kiểm tra mô hình

Trong bài viết này, chúng tôi sẽ đi qua thu thập dữ liệu, chọn mô hình học máy và chuẩn bị dữ liệu.

1.1 Dữ liệu dữ liệu

Như chúng ta đã biết, trong dữ liệu trường máy là vua, do đó, chúng ta cần thu thập dữ liệu trước. Rất may, chúng tôi đã có một số dữ liệu trong bài viết trước của chúng tôi tuy nhiên dữ liệu này có thể cần phải chuẩn bị theo mô hình học máy đã chọn của chúng tôi.

1.2.Chọn mô hình học máy

Có nhiều thuật toán mà chúng ta có thể sử dụng để giải quyết vấn đề này. Tuy nhiên, BERT đã truyền cảm hứng cho tôi để thử kỹ thuật mạng thần kinh cho mô hình chính tả của chúng tôi, nhưng làm thế nào chúng ta có thể sử dụng NN để sửa lỗi chính tả? Mục tiêu của thuật toán của chúng tôi là tìm từ đúng khi viết sai chính tả. Ex: សួស្ត => សួស្តី . Như chúng ta biết, các từ trong từ điển hiếm khi thay đổi, vì vậy chúng ta có thể nghĩ nó là nhãn trong mô hình NN của chúng ta. Do đó, chúng tôi sẽ sử dụng mạng nơ ron đa lớp, nơi chúng tôi sẽ dự đoán các nhãn (từ) có khả năng được sửa nhiều nhất dựa trên đầu vào đã cho (từ không chính xác).

Chuẩn bị 1.3.

Như chúng ta biết, học sâu cần rất nhiều dữ liệu, tuy nhiên chúng ta chỉ có khoảng 8000 từ được sửa, trong đó sẽ biến nó thành nhãn (Y) để đào tạo mô hình NN của chúng ta. Hơn nữa, chúng ta cũng có thể sử dụng những từ chính xác đó để tạo đầu vào (X) cho mô hình của mình. Chúng tôi có thể tạo đầu vào (X) bằng cách:

xóa từ dạng ký tự (tại vị trí ngẫu nhiên): Ví dụ: សួស្តី => សស្តី
thêm charrecter vào word (ở vị trí ngẫu nhiên): Ex: សួស្តី => សួស្តីរ
thay thế charater Bằng chữ: Ex: បួស្តី => សួស្តី
Kết hợp: Ví dụ: បួស្តី => សួស្តីរ

Hãy thực hiện mã python cho điều đó.

<span class="token keyword">from</span> random <span class="token keyword">import</span> randrange

correctWords <span class="token operator">=</span> <span class="token punctuation">[</span> <span class="token string">'សួស្តី'</span> <span class="token punctuation">,</span> <span class="token string">'អក្សរចារឹក'</span> <span class="token punctuation">,</span> <span class="token string">'ចំណែង'</span> <span class="token punctuation">,</span> <span class="token string">'នៅ'</span> <span class="token punctuation">,</span> <span class="token string">'ភោជន'</span> <span class="token punctuation">,</span> <span class="token string">'មនុស្ស'</span> <span class="token punctuation">,</span> <span class="token string">'ពព្រាយ'</span> <span class="token punctuation">,</span> <span class="token string">'ពពិល'</span> <span class="token punctuation">,</span> <span class="token string">'ប្រជាករ'</span> <span class="token punctuation">,</span> <span class="token string">'ប្រជាជន'</span> <span class="token punctuation">]</span>
alphabet <span class="token operator">=</span> <span class="token punctuation">[</span> <span class="token string">'ក'</span> <span class="token punctuation">,</span> <span class="token string">'ខ'</span> <span class="token punctuation">,</span> <span class="token string">'គ'</span> <span class="token punctuation">,</span> <span class="token string">'ឃ'</span> <span class="token punctuation">,</span> <span class="token string">'ង'</span> <span class="token punctuation">,</span> <span class="token string">'ច'</span> <span class="token punctuation">,</span> <span class="token string">'ឆ'</span> <span class="token punctuation">,</span> <span class="token string">'ជ'</span> <span class="token punctuation">,</span> <span class="token string">'ឈ'</span> <span class="token punctuation">,</span> <span class="token string">'ញ'</span> <span class="token punctuation">,</span> <span class="token string">'ដ'</span> <span class="token punctuation">,</span> <span class="token string">'ឋ'</span> <span class="token punctuation">,</span> <span class="token string">'ឌ'</span> <span class="token punctuation">,</span> <span class="token string">'ឍ'</span> <span class="token punctuation">,</span> <span class="token string">'ណ'</span> <span class="token punctuation">,</span> <span class="token string">'ត'</span> <span class="token punctuation">,</span> <span class="token string">'ថ'</span> <span class="token punctuation">,</span> <span class="token string">'ទ'</span> <span class="token punctuation">,</span> <span class="token string">'ធ'</span> <span class="token punctuation">,</span> <span class="token string">'ន'</span> <span class="token punctuation">,</span> <span class="token string">'ប'</span> <span class="token punctuation">,</span> <span class="token string">'ផ'</span> <span class="token punctuation">,</span> <span class="token string">'ព'</span> <span class="token punctuation">,</span> <span class="token string">'ភ'</span> <span class="token punctuation">,</span> <span class="token string">'ម'</span> <span class="token punctuation">,</span> <span class="token string">'យ'</span> <span class="token punctuation">,</span> <span class="token string">'រ'</span> <span class="token punctuation">,</span> <span class="token string">'ល'</span> <span class="token punctuation">,</span> <span class="token string">'វ'</span> <span class="token punctuation">,</span> <span class="token string">'ឝ'</span> <span class="token punctuation">,</span> <span class="token string">'ឞ'</span> <span class="token punctuation">,</span> <span class="token string">'ស'</span> <span class="token punctuation">,</span> <span class="token string">'ហ'</span> <span class="token punctuation">,</span> <span class="token string">'ឡ'</span> <span class="token punctuation">,</span> <span class="token string">'អ'</span> <span class="token punctuation">,</span> <span class="token string">'ា'</span> <span class="token punctuation">,</span> <span class="token string">'ិ'</span> <span class="token punctuation">,</span> <span class="token string">'ី'</span> <span class="token punctuation">,</span> <span class="token string">'ឹ'</span> <span class="token punctuation">,</span> <span class="token string">'ឺ'</span> <span class="token punctuation">,</span> <span class="token string">'ុ'</span> <span class="token punctuation">,</span> <span class="token string">'ូ'</span> <span class="token punctuation">,</span> <span class="token string">'ួ'</span> <span class="token punctuation">,</span> <span class="token string">'ើ'</span> <span class="token punctuation">,</span> <span class="token string">'ឿ'</span> <span class="token punctuation">,</span> <span class="token string">'ៀ'</span> <span class="token punctuation">,</span> <span class="token string">'េ'</span> <span class="token punctuation">,</span> <span class="token string">'ែ'</span> <span class="token punctuation">,</span> <span class="token string">'ៃ'</span> <span class="token punctuation">,</span> <span class="token string">'ោ'</span> <span class="token punctuation">,</span> <span class="token string">'ៅ'</span> <span class="token punctuation">,</span> <span class="token string">'ំ'</span> <span class="token punctuation">,</span> <span class="token string">'ះ'</span> <span class="token punctuation">,</span> <span class="token string">'◌ៈ'</span> <span class="token punctuation">,</span> <span class="token string">'៉'</span> <span class="token punctuation">,</span> <span class="token string">'់'</span> <span class="token punctuation">,</span> <span class="token string">'៌'</span> <span class="token punctuation">,</span> <span class="token string">'៏'</span> <span class="token punctuation">,</span> <span class="token string">'័'</span> <span class="token punctuation">]</span>

<span class="token comment">#remove character</span>
removedWords <span class="token operator">=</span> <span class="token punctuation">[</span> <span class="token punctuation">]</span>
<span class="token keyword">for</span> word <span class="token keyword">in</span> correctWords <span class="token punctuation">:</span>
    pos <span class="token operator">=</span> randrange <span class="token punctuation">(</span> <span class="token builtin">len</span> <span class="token punctuation">(</span> word <span class="token punctuation">)</span> <span class="token punctuation">)</span>
    word <span class="token operator">=</span> word <span class="token punctuation">[</span> <span class="token punctuation">:</span> pos <span class="token punctuation">]</span> <span class="token operator">+</span> word <span class="token punctuation">[</span> <span class="token punctuation">(</span> pos <span class="token operator">+</span> <span class="token number">1</span> <span class="token punctuation">)</span> <span class="token punctuation">:</span> <span class="token punctuation">]</span>
    removedWords <span class="token punctuation">.</span> append <span class="token punctuation">(</span> word <span class="token punctuation">)</span>

<span class="token comment">#add character</span>
addedWords <span class="token operator">=</span> <span class="token punctuation">[</span> <span class="token punctuation">]</span>
<span class="token keyword">for</span> word <span class="token keyword">in</span> correctWords <span class="token punctuation">:</span>
    ch <span class="token operator">=</span> alphabet <span class="token punctuation">[</span> randrange <span class="token punctuation">(</span> <span class="token builtin">len</span> <span class="token punctuation">(</span> alphabet <span class="token punctuation">)</span> <span class="token punctuation">)</span> <span class="token punctuation">]</span>
    pos <span class="token operator">=</span> randrange <span class="token punctuation">(</span> <span class="token builtin">len</span> <span class="token punctuation">(</span> word <span class="token punctuation">)</span> <span class="token punctuation">)</span>
    word <span class="token operator">=</span> word <span class="token punctuation">[</span> <span class="token punctuation">:</span> pos <span class="token punctuation">]</span> <span class="token operator">+</span> ch <span class="token operator">+</span> word <span class="token punctuation">[</span> pos <span class="token punctuation">:</span> <span class="token punctuation">]</span>
    addedWords <span class="token punctuation">.</span> append <span class="token punctuation">(</span> word <span class="token punctuation">)</span>

<span class="token comment">#replace character</span>
replaceWords <span class="token operator">=</span> <span class="token punctuation">[</span> <span class="token punctuation">]</span>
<span class="token keyword">for</span> word <span class="token keyword">in</span> correctWords <span class="token punctuation">:</span>
    ch <span class="token operator">=</span> alphabet <span class="token punctuation">[</span> randrange <span class="token punctuation">(</span> <span class="token builtin">len</span> <span class="token punctuation">(</span> alphabet <span class="token punctuation">)</span> <span class="token punctuation">)</span> <span class="token punctuation">]</span>
    pos <span class="token operator">=</span> randrange <span class="token punctuation">(</span> <span class="token builtin">len</span> <span class="token punctuation">(</span> word <span class="token punctuation">)</span> <span class="token punctuation">)</span>
    word <span class="token operator">=</span> word <span class="token punctuation">[</span> <span class="token punctuation">:</span> pos <span class="token punctuation">]</span> <span class="token operator">+</span> ch <span class="token operator">+</span> word <span class="token punctuation">[</span> <span class="token punctuation">(</span> pos <span class="token operator">+</span> <span class="token number">1</span> <span class="token punctuation">)</span> <span class="token punctuation">:</span> <span class="token punctuation">]</span>
    replaceWords <span class="token punctuation">.</span> append <span class="token punctuation">(</span> word <span class="token punctuation">)</span>

from random import randrange

correctWords = [ 'សួស្តី' , 'អក្សរចារឹក' , 'ចំណែង' , 'នៅ' , 'ភោជន' , 'មនុស្ស' , 'ពព្រាយ' , 'ពពិល' , 'ប្រជាករ' , 'ប្រជាជន' ]

alphabet = [ 'ក' , 'ខ' , 'គ' , 'ឃ' , 'ង' , 'ច' , 'ឆ' , 'ជ' , 'ឈ' , 'ញ' , 'ដ' , 'ឋ' , 'ឌ' , 'ឍ' , 'ណ' , 'ត' , 'ថ' , 'ទ' , 'ធ' , 'ន' , 'ប' , 'ផ' , 'ព' , 'ភ' , 'ម' , 'យ' , 'រ' , 'ល' , 'វ' , 'ឝ' , 'ឞ' , 'ស' , 'ហ' , 'ឡ' , 'អ' , 'ា' , 'ិ' , 'ី' , 'ឹ' , 'ឺ' , 'ុ' , 'ូ' , 'ួ' , 'ើ' , 'ឿ' , 'ៀ' , 'េ' , 'ែ' , 'ៃ' , 'ោ' , 'ៅ' , 'ំ' , 'ះ' , '◌ៈ' , '៉' , '់' , '៌' , '៏' , '័' ]

#remove character

removedWords = [ ]

for word in correctWords :

pos = randrange ( len ( word ) )

word = word [ : pos ] + word [ ( pos + 1 ) : ]

removedWords . append ( word )

#add character

addedWords = [ ]

for word in correctWords :

ch = alphabet [ randrange ( len ( alphabet ) ) ]

word = word [ : pos ] + ch + word [ pos : ]

addedWords . append ( word )

#replace character

replaceWords = [ ]

for word in correctWords :

word = word [ : pos ] + ch + word [ ( pos + 1 ) : ]

replaceWords . append ( word )

Sau đó chạy nó để kiểm tra các phương thức của chúng tôi và nhận được:

Bây giờ, chúng ta có thể tạo ra tấn đầu vào (X) cho mô hình học sâu của mình.

Tài nguyên

Tiếp theo là gì?

Trong bài viết tiếp theo, chúng tôi sẽ triển khai mô hình mạng nơ-ron đa lớp và chúng tôi sẽ đào tạo mô hình của chúng tôi với bộ dữ liệu mà chúng tôi đã chuẩn bị trong bài đăng này. Sau đó kiểm tra kết quả của mô hình được đào tạo của chúng tôi. Đồng thời, bạn có thể nhận xét nhận xét của mình và đề xuất thuật toán học máy đã chọn của tôi. Chúng tôi có thể sử dụng thuật toán đề xuất của bạn trong bài viết tiếp theo của tôi. Hãy bình tĩnh.

Chia sẻ bài viết ngay

Nguồn bài viết : Viblo

Áp dụng mạng nơ-ron cho việc sửa từ tiếng Khmer phần I

Kế hoạch tấn công

1.1 Dữ liệu dữ liệu

1.2.Chọn mô hình học máy

Chuẩn bị 1.3.

Tài nguyên

Tiếp theo là gì?

TikTok trở thành nền tảng mảng xã hội lớn thứ hai ở Nam Phi

Mất giá nhanh nhất sau 9 tháng ra mắt, iPhone 14 Pro Max tiếp tục phá đáy tại Việt Nam

Hướng dẫn sử dụng ngôn ngữ R cho người mới bắt đầu

10 plugin cần thiết của SublimeText dành cho các lập trình viên JavaScript