Các thuật ngữ trong Xử lý ngôn ngữ tự nhiên

Thứ Ba, 29/11/2016

Vai trò của Xử lý ngôn ngữ tự nhiên-XLNNTN (Natural Language Processing-NLP) trong khai thác Big Data là không thể phủ nhận trong bối cảnh phát triển của doanh nghiệp hiện nay. Đối với ngôn ngữ tiếng Anh, ta đã được kế thừa nhiều tri thức cũng như nhiều công cụ có sẵn để áp dụng ngay vào thực tiễn. Tuy nhiên, đối với ngôn ngữ tiếng Việt, ta vẫn còn gặp nhiều khó khăn (nhân sự có chuyên môn còn hạn chế, ngữ liệu để huấn luyện chưa đủ lớn) bên cạnh những cơ hội rất lớn (thị trường Việt Nam chưa được khai thác) cho những ai đam mê lĩnh vực này.

Vì vậy, trong bài viết này, tôi xin lập ra danh sách các thuật ngữ thường gặp trong NLP để tiện tham khảo cũng như giúp cho những bạn mới bắt đầu có thể nhanh chóng tra cứu sơ để tiến hành nghiên cứu ngay các tài liệu khoa học. Bài viết sẽ luôn được cập nhật. Nếu có các thuật ngữ chưa rõ, các bạn có thể comment để chúng ta tiếp tục mở rộng thêm danh sách này.

Natural Language Processing (NLP) – Xử lý ngôn ngữ tự nhiên là lĩnh vực Khoa học máy tính kết hợp giữa Trí tuệ nhân tạo (Artificial Intelligence) và Ngôn ngữ học tính toán (Computational Linguistics) nhằm tập trung xử lý tương tác giữa con người và máy tính sao cho máy tính có thể hiểu hay bắt chước được ngôn ngữ của con người. Các ứng dụng thường thấy như hiện nay là Siri, Cortana và Google Now.

Ambiguity – nhập nhằng (ở nhiều cấp độ: lexical – từ vựng, morphological – hình vị, syntactic – cú pháp, semantic – ngữ nghĩa, domain – lĩnh vực). Ví dụ nhập nhằng từ “đậu” đại diện cho một hành động hay “đậu” đại diện cho một loài thực vật trong câu “Con ruồi đậu mâm xôi đậu”.

Pre-processing – tiền xử lý dữ liệu, xử lý sơ bộ văn bản: xóa bỏ những kí tự, những mã điều khiển, những vùng không cần thiết cho hệ thống gồm: tách đoạn/câu/từ (paragraph/sentence/word segmentation), làm sạch (cleaning), tích hợp (integreation), chuyển đổi (transformation), giảm số chiều (reduction).

Morphological analysis (Phân tích hình thái)

Phân tích phụ tố (affix): ví dụ anti-comput-er-iza-tion
Xử lý từ ghép (compound word): ví dụ carry out, out of sight, out of mind
Xử lý các trường hợp tỉnh lược (ellipsis): I’m, o’clock, Dr.
Nhận diện tên riêng: John, Bush, IBM
Nhân diện ranh giới từ (word boundary): tiếng Việt một từ có nhiều tiếng. Ví dụ: chúm chím, tuổi tác, hỏi han, tối om, giáo viên, hiện đại hóa, …

Parser (Phân tích ngữ pháp)

Gán nhãn từ loại (Part Of Speech – POS tagging): một từ có nhiều từ loại (Danh từ, Động từ, Tính từ, …)
Gán nhãn ranh giới ngữ: đâu là bắt đầu, kết thúc của các ngữ (phrase). Ví dụ ngữ danh từ, ngữ động từ, …
Gán nhãn quan hệ ngữ pháp (grammatical relation)
Gán nhãn cây cú pháp (parse tree)

Anaphora – khử nhập nhằng thế đại từ. Ví dụ “The monkey ate the banana because it was hungry”. Đại từ “it” thay thế cho monkey hay banana.

Pragmatics – phân tích ngữ dụng: từ “sentence” trong phân tích văn phạm có nghĩa là câu, trong luật pháp có nghĩa là án tù. Do vậy, ta cần xem xét toàn bộ văn bản để đưa ra ý nghĩa chính xác.

15179210_1121335904582205_3896176699800221106_n — **Đừng bỏ lỡ cơ hội gặp gỡ Microsoft tại sự kiện này! Đặt vé ngay!**

Corpus/Corpora – “ngữ liệu” là những “dữ liệu, cứ liệu của ngôn ngữ”, tức là những chứng cứ thực tế sử dụng ngôn ngữ, được dùng để kiểm chứng các quy luật của ngôn ngữ trong quá trình phân tích thông kê hay kiểm định giả thuyết thống kê của các mô hình dự đoán.

Information Extraction – là tiến trình rút trích ra các thông tin có cấu trúc một cách tự động từ các nguồn dữ liệu không cấu trúc hay bán cấu trúc (unstructured/semi-structure) ví dụ như các tài liệu văn bản hay các trang web.

Named Entity Recognition (NER) – là tiến trình xác định và phân loại các phần tử trong văn bản vào các danh mục được định nghĩa trước như tên người, tên tổ chức, địa điểm, giá trị tiền tệ, tỷ lệ phần trăm,…

Sentiment Analysis -sử dụng các kĩ thuật NLP để rút trích thông tin chủ quan của người dùng từ một câu nói hay một văn bản. Đây cũng là kĩ thuật khai thác ý kiến người dùng xem họ đang có thái độ tích cực hay tiêu cực về sản phẩm của công ty.

Bag of Words -mô hình thường dùng trong các tác vụ phân lớp văn bản (Text Classification). Thông tin sẽ được biểu diễn thành tập các từ đi kèm với tần xuất xuất hiện của mỗi từ này trong văn bản. Bag of Words được dùng như feature để huấn luyện cho classifier.

Explicit Semantic Analysis (ESA) -là tiến trình giúp máy hiểu được ý nghĩa của văn bản, được sử dụng trong Information Retrieval, Document Classification, Semantic Relatedness calculation (độ tương tự về ý nghĩa giữa các từ hay văn bản)

Latent Semantic Analysis (LSA) -tiến trình phân tích quan hệ giữa các văn bản và các từ. Đầu ra là mối liên quan giữa các khái niệm, văn bản, và các từ. LSA giả sử các từ gần nhau về mặt ý nghĩa sẽ xuất hiện trong các văn bản tương tự.

Latent Dirichlet Allocation (LDA) – kĩ thuật Topic Modeling thường dùng, ý tưởng của LDA dựa trên nguyên lý mỗi topic là phân bố của các từ, mỗi văn bản là sự trộn lẫn giữa nhiều topic, và mỗi từ phân bố vào một trong những topic này.

Tra cứu nhanh bảng thuật ngữ

Thuật ngữ	Ý nghĩa
ambiguity	tính nhập nhằng
computer	ngành máy tính
linguistics	ngôn ngữ học
computational linguistics	ngôn ngữ học tính toán
applied linguistics	ngôn ngữ học ứng dụng
mathematical linguistics	ngôn ngữ học toán
acl – association for computational linguistics	hiệp hội ngôn ngữ học máy tính
spelling checker	kiểm lỗi chính tả
grammar checker	kiểm lỗi văn phạm
thesaurus	từ điển đồng nghĩa
text analyzer	phân tích văn bản
text classification	phân loại văn bản
text summarization	tóm tắt văn bản
voice synthesis	tổng hợp tiếng nói
automatic translation	dịch tự động
interlingual	liên ngôn ngữ nhằm biểu diễn chung cho tất cả các ngôn ngữ chính trên thế giới để tạo điều kiện thuận lợi trong việc trao đổi thông tin.
formal language	ngôn ngữ hình thức
formalization	hình thức hóa
machine readable dictionary	từ điển điện tử dành cho máy
corpus – linguistics	ngôn ngữ học ngữ liệu
corpus – based	dựa trên ngữ liệu
statistical linguistics	ngôn ngữ học thống kê
tagset	hệ thống nhãn
toolkit	các công cụ
pragmatic relation	quan hệ võ đoán (quan hệ mà không thể giải thích được lý do, quan hệ chỉ do quy ước,thói quen của cộng đồng)
phonetics	âm vị-đơn vị âm thanh nhỏ nhất để cấu tạo và khu biệt về mặt biểu hiện vật chất (âm thanh) của các đơn vị khác. Ví dụ: k-a-d(card);b-i-g(big)
morpheme	hình vị-đơn vị nhỏ nhất mang nghĩa (nghĩa ngữ pháp hay nghĩa từ vựng) được cấu tạo bởi các âm vị. Ví dụ: read-ing;book-s
word	từ–đơn vị mang nghĩa độc lập; được cấu tạo bởi (các) hình vị; có chức năng định danh. Ví dụ: I-am-reading-my–books.
phrase	ngữ-gồm hai hay nhiều từ có quan hệ ngữ pháp hay ngữ nghĩa với nhau. Vídụ: bức thư, mạng máy tính, computer system,…
sentence	câu-gồm các từ/ngữ có quan hệ ngữ pháp hay ngữ nghĩa với nhau và có chức năng cơ bản là thông báo. Ví dụ: I am reading my books.
text	văn bản-hệ thống các câu được liên kết với nhau về mặt hình thức, ngữ pháp, ngữ nghĩa và ngữ dụng.
hieararchical relation	quan hệ cấp bậc
syntagmatical relation	quan hệ ngữ đoạn
association relation	quan hệ liên tưởng
morphology	hình thái-mối quan hệ giữa đơn vị ngôn ngữ với hình thức cấu tạo của đơn vị đó
grammar	ngữ pháp-mối quan hệ giữa đơn vị ngôn ngữ này với các đơn vị ngôn ngữ hữu quan
semantic	ngữ nghĩa-mối quan hệ giữa đơn vị ngôn ngữ với nội dung (mặt ý nghĩa) của đơn vị đó. Xác định nghĩa của từng từ và tổ hợp của chúng để tạo nghĩa của câu. Thí dụ trong phân tích (Ônggià) (đi) (nhanhquá), động từ “đi” có thể có nghĩa “bước đi”, hay “chết” hay “điều khiển”(khi đánh cờ),…và tương ứng ta có các nghĩa khác nhau của câu.
pragmatic	ngữ dụng-mối quan hệ giữa đơn vị ngôn ngữ với mục đích sử dụng của đơn vị đó. Mối quan hệ giữa ngôn ngữ và ngữ cảnh sử dụng ngôn ngữ (contextofuse). Ngữ dụng như vậy nghiên cứu việc ngôn ngữ được dùng để nói về người và vật như thế nào.
flexional	ngôn ngữ hòa kết
agglutinate	ngôn ngữ chắp dính
isolate	ngôn ngữ đơn lập
polysynthetic	ngôn ngữ đa tổng hợp
classifier	từ chỉ loại-phó danh từ chỉ loại: cái bàn, cuốn sách, bức thư, con chó, con sông, vì sao,…
affix	phụ tố
comparative linguistics	ngôn ngữ học so sánh
lexicology	từ vựng học
etymology	từ nguyên học-nghiên cứu lịch sử của từ
encyclopedia	bách khoa toàn thư
denotative meaning	nghĩa biểu vật-liên hệ giữa từ và sự vật (hiện tượng, thuộc tính, hành động,…)
significative meaning	nghĩa biểu niệm-liên hệ giữa từ và ý (ý nghĩa, ý niệm, biểu niệm,…)
pragmatical meaning	nghĩa ngữ dụng-còn gọi là nghĩa biểu thái, nghĩa hàm chỉ (connotative meaning) là mối liên hệ giữa từ với thái độ chủ quan, cảm xúc của người nói.
structural meaning	nghĩa cấu trúc-là mối quan hệ giữa từ với các từ khác trong hệ thống từ vựng. Quan hệ giữa từ này với từ khác thể hiện trên hai trục: trục đối vị (paradigmatial axis) và trục ngữ đoạn (syntagmatical axis)
stem	thân từ-có thể bao gồm một hay nhiều hình vị gốc. Ví dụ: babysit
inflection	biến cách-là dạng mà trong đó có một hình vị ràng buộc kết hợp vào một từ để thể hiện những ý nghĩa ngữ pháp như: thì(tense),số (number), giống (gender), cách (case),…
derivation	dẫn xuất-là dạng từ mới được hình thành trên cơ sở từ gốc kết hợp với các phụ tố nhằm thể hiện những ý nghĩa từ vựng, như: lặp lại (re-), chống (anti-), người/vật thực hiện (-er/-or),…
double consonant	gấp đôi phụ âm
syntactic group	đoản ngữ-một nhóm những từ có liên hệ trực tiếp với nhau ở trong câu gọi là tổ hợp từ, và loại tổ hợp từ có quan hệ chính phụ được gọi là đoản ngữ. Đoản ngữ có vai trò quan trọng trong việc phân tích cú pháp và mô hình hóa câu để hiểu câu dễ dàng.
pos tagging	xác định loại từ-xem mỗi từ trong câu là loại gì (danh từ, động từ, giới từ,…)
chunking	xác định cụm từ-thí dụ “ông già” là cụm danh từ, “đi” là cụm động từ, “nhanh quá” là cụm trạng từ. Như vậy câu trên có hai phân tích (Ông già)(đi)(nhanh quá) hoặc (Ông)(già đi)(nhanh quá)
parsing	xác định quan hệ ngữ pháp-(Ông già)(đi)(nhanh quá) là quan hệ chủ ngữ-vị ngữ-trạng ngữ.
shallow parsing	phân tích sơ bộ
fully parsing	phân tích đầy đủ-phân tích cả tầng ngữ nghĩa
acoustic	âm học
text to speech	tổng hợp tiếng nói
alphabet set	bộ chữ-là bất kỳ một tập ký hiệu nào, tập này không nhất thiết phải hữu hạn hay đếm được (nhưng trên thực tế những tập này là hữu hạn)
string	chuỗi (sigma)-định nghĩa một cách hình thức những chuỗi trên một bộ chữ (alphabet)
language	ngôn ngữ-là một tập những chuỗi có chiều dài hữu hạn trên một bộ chữ hữu hạn (sigma) nào đó)
grammar	văn phạm
unrestricted grammar	văn phạm không hạn chế-được đoán nhận bằng một máy Turing. Đây là văn phạm loại 0
context-sensitive grammar	văn phạm cảm ngữ cảnh-được đoán nhận bằng một máy Turing. Đây là văn phạm loại 1.
context-free grammar	văn phạm phi ngữ cảnh-sự áp dụng các luật sản sinh trong P thì hoàn toàn không bị điều kiện gì về ngữ cảnh ràng buộc. Được đoán nhận bằng PDA-push down acceptor.
derivation sequence	dãy suy dẫn
derivation tree	cây suy dẫn
categorized grammar	văn phạm mục
Chomsky normal form	dạng chính tắc
pharagraph segmentation	tách đoạn-tách văn bản thành các đoạn và xem đoạn văn là một khối liên tục các câu.
token	một dãy tuần tự các ký tự trong bảng chữ cái, hoặc dãy tuần tự các con số (một chữ số có chứa dấu chấm là dấu chấm thập phân được xem như là một token), hoặc một ký tự không nằm trong bảng chữ cái (như dấu chấm câu, dấu ngoặc kép, các ký tự mở rộng,…)
sigmoid	hàm “nén”
back propagation	lan truyền ngược
ellipsis	tỉnh lược-ví dụ: I’m, o’clock, Dr.
TBL-Transformation Based Learning	giải thuật học cải biến
Stochastic transduction	chuyển dịch trạng thái có xác suất
acceptor	máy đoán nhận
transducer	chuyển dịch
parser	phân tích ngữ pháp bao gồm phân tích từ pháp (ngữ pháp của từ-POS tagger) và phân tích cú pháp (ngữ pháp của câu), bước trung gian là phân đoạn ngữ (phrase–chunker)
transformation rules	luật cải biến
wordnet	cơ sở tri thức khổng lồ về ngữ nghĩa của từ vựng theo hướng liệt kê nét nghĩa
LDOCE-Longman Dictionary Of Contemporary	hệ thống nhãn ngữ nghĩa LDOCE English
polysemy	từ đa nghĩa
hamonymy	từ đồng nghĩa
contrastive	nghĩa không liên quan với nhau
complementary	nghĩa có liên quan một cách hệ thống với nhau
homograph	nghĩa của từ đồng tự
primitives	sơ cấp
selectional restriction	ràng buộc ngữ nghĩa
content words	từ thực
ontology	hệ thống nhãn ngữ nghĩa, bản thể học để phân loại tri thức
collocation	ngôn từ-xét đến hình thái và ngữ nghĩa của các từ lân cận. Chẳng hạn khi thấy “bank…river” -> “bờ sông”, “bank…account/money”-> “ngân hàng”
anaphora	thế đại từ
granularity	độ mịn
syntactic tree transfer	chuyển đổi cây cú pháp
Pp-attachment	khử nhập nhằng ngữ giới từ
entry	mục từ trong từ điển
idiom	thành ngữ
subcategory	tiểu từ loại như danh từ thuộc loại con nào (danh từ đếm được, không đếm được,…), động từ loại con nào (tha động từ, tự động từ,…)
case role	ngữ pháp cách: agent (human), instrument (object)
categories	danh từ chỉ loài
subcategories	chủng loại
modality	tình thái: từ này dùng trong cảnh huống nào: trịnh trọng, thân mật, thông tục,…
interlingual MT	dịch qua ngôn ngữ trung gian
demo	biểu diễn
concordance	từ đồng hiện
phoneme synthesis	tổng hợp âm vị
punctuation	ngừng nghỉ
intonation	ngữ điệu lên xuống
alignment	liên kết với nhau trong ngữ liệu song song
category	chủng loại như thông tin về số (ít/nhiều), về thời, đếm được.
tags	Nhãn
empiricism	chủ nghĩa kinh nghiệm
rationalism	chủ nghĩa lý luận
data driven	dữ liệu thực tiễn
theory driven	mô hình lý thuyết
deductive	nghiên cứu theo phương pháp xác suất thống kê
inductive	nghiên cứu theo phương pháp luật suy diễn
children language acquisition	nhận biết ngôn ngữ của trẻ
language performance	sự thực hiện ngôn ngữ
Language competence	năng lực ngôn ngữ
parole	lời nói
rationalism	nghiên cứu dựa theo lý luận
bilingual parallel corpora	ngữ liệu song ngữ
parallel corpora	ngữ liệu song song
estimation maximization	ước lượng cực đại
marginal phenomena	những trường hợp ngoại lệ mà không tuân theo luật chính
flip flop	là hiện tượng mà khi hệ thống có một sự thay đổi nào đó để khắc phục một lỗi sai này, nhưng hệ thống sẽ dẫn đễn lỗi sai khác mà ta không ngờ tới)
post edit	hiệu đính
fertility	giá trị sản sinh
greedy decoding	tìm kiếm tham lam
baseline	gán nhãn sơ khởi
template	khung luật định sẵn
pipeline style	công việc thực hiện nối tiếp nhau
concept	thực thể cùng loại
instance-based learning	học dựa trên trường hợp (similarity, example, memory-based)
fitness	hàm đánh giá
ensembles of classifier	tập hợp phân lớp

Người viết Ông Xuân Hồng

Chia sẻ bài viết ngay

Các thuật ngữ trong Xử lý ngôn ngữ tự nhiên

Tra cứu nhanh bảng thuật ngữ

TikTok trở thành nền tảng mảng xã hội lớn thứ hai ở Nam Phi

Mất giá nhanh nhất sau 9 tháng ra mắt, iPhone 14 Pro Max tiếp tục phá đáy tại Việt Nam

Hướng dẫn sử dụng ngôn ngữ R cho người mới bắt đầu

10 plugin cần thiết của SublimeText dành cho các lập trình viên JavaScript