Nhập nhằng (xử lý ngôn ngữ tự nhiên)

Nhập nhằng trong ngôn ngữ học là hiện tượng thường gặp, trong giao tiếp hàng ngày con người ít để ý đến nó bởi vì họ xử lý tốt hiện tượng này. Nhưng trong các ứng dụng liên quan đến xử lý ngôn ngữ tự nhiên khi phải thao tác với ý nghĩa từ vựng mà điển hình là dịch tự động nhập nhằng trở thành vấn đề nghiêm trọng. Ví dụ trong một câu cần dịch có xuất hiện từ "đường" như trong câu "ra chợ mua cho mẹ ít đường" vấn đề nảy sinh là cần dịch từ này là road hay sugar, con người xác định chúng khá dễ dàng căn cứ vào văn cảnh và các dấu hiệu nhận biết khác nhưng với máy thì không. Việc tìm ra các thuật toán hữu hiệu gây khó khăn không ít cho các nhà lập trình.

Một số hiện tượng nhập nhằng

[sửa | sửa mã nguồn]

Nhập nhằng ranh giới từ

[sửa | sửa mã nguồn]

Trong tiếng Anh việc xác định ranh giới từ khá dễ dàng, mỗi từ riêng lẻ đã mang trọn vẹn một nghĩa và ranh giới của chúng được xác định thông qua khoảng trắng. Tiếng Việt thì khác, do là ngôn ngữ đơn lập nên từ vựng chủ yếu là các từ ghép vì thế khoảng trắng không phải luôn luôn là ranh giới chính xác. Ví dụ câu:

  • He is a teacher(1)

Và câu:

  • Anh ấy là giáo viên(2)

Câu (1) phân định ranh giới dễ dàng cụ thể là:

  • He / is / a / teacher

Nhưng trong câu (2) nếu vẫn phân định ranh giới từ theo khoảng trắng không chính xác hoàn toàn, cụ thể:

  • Anh / ấy / là / giáo / viên

Từ giáo viên là từ ghép nay bị chia thành hai từ đơn là giáo và viên, cách chia này là sai. Cách phân định ranh giới đúng của câu trên là:

  • Anh ấy / là / giáo viên.

Nhập nhằng từ đa nghĩa

[sửa | sửa mã nguồn]

Bất cứ ngôn ngữ nào cũng có từ đa nghĩa, nguyên nhân là vì rất nhiều khái niệm có các sắc thái ý nghĩa tuy không hoàn toàn trùng khớp nhau nhưng lại có nhiều nét tương đồng. Như từ "ăn" trong "ăn uống" và "ăn cướp" vừa có những nét nghĩa giống và khác nhau, theo cuốn từ điển tiếng Việt thì từ ăn có đến 12 nghĩa. Hiện tượng này gây cản trở cho việc dịch tự động, chương trình không biết dịch từ đa nghĩa theo nghĩa nào trong nhóm nghĩa của nó.

Nhập nhằng từ đồng âm (đồng tự)

[sửa | sửa mã nguồn]

Hai từ đồng âm với nhau nghĩa là hai từ có âm giống nhau nhưng mang nghĩa khác nhau, còn đồng tự là hai từ về mặt ký tự là giống nhau nhưng nghĩa khác nhau. Do đặc điểm của tiếng Việt từ đồng âm cũng thường là từ đồng tự, ở các ngôn ngữ khác hai hiện tượng này không trùng khớp nhau. Cũng phải phân biệt từ đồng tự với từ đa nghĩa, trong từ đa nghĩa các nghĩa đều có chung một nguồn gốc và do vậy luôn có nét tương đồng trong khi đó trong từ đồng tự chúng không có liên hệ về nguồn gốc với nhau, nghĩa của chúng khác nhau rõ rệt. Ví dụ từ kiếm trong hai câu sau đây là hai từ đồng tự:

  • Anh ta sử dụng kiếm rất điêu luyện.
  • Kiếm ăn bây giờ khó lắm.

Việc xác định nghĩa chính xác của từ đồng tự dễ dàng hơn từ đa nghĩa bởi vì sự khác nhau lớn về ngữ nghĩa của chúng giúp đưa ra được nhiều tiêu chuẩn tốt để phân biệt.

Nhập nhằng từ loại

[sửa | sửa mã nguồn]

Từ loại là một yếu tố quan trọng trong việc xác định nghĩa chính xác của từ và sắp xếp các từ thành câu hoàn chỉnh trong dịch tự động.Như vậy có nghĩa là từ loại giúp khử nhập nhằng, nhưng chính bản thân nó trong một số trường hợp cũng nhập nhằng. Phần lớn các ngôn ngữ biến hình từ loại được xác định tương đổi dễ dàng vì khi chuyển loại thì từ cũng chuyển kiều hình của nó ví dụ trong tiếng Anh từ free là tính từ có nghĩa là tự do, chuyển loại thành danh từ có thêm hậu tố "dom" thành freedom nghĩa là sự tự do. Điều này tạo thuận lợi cho việc gán nhãn từ loại một cách tự động nhờ các dấu hiệu nhận biết tổng quát. Các ngôn ngữ không biến hình như tiếng Việt vấn đề xác định từ loại yêu cầu các thuật toán phức tạp hơn,bắt buộc phải phân tích cú pháp, mặt khác ngay trong nội bộ ngành ngôn ngữ vẫn chưa có sự thống nhất về phân loại từ loại cho tiếng Việt.

Tham khảo

[sửa | sửa mã nguồn]

Liên kết ngoài

[sửa | sửa mã nguồn]
Chúng tôi bán
Bài viết liên quan
Se7en (1995) : Bạn là ai là do bạn lựa chọn
Se7en (1995) : Bạn là ai là do bạn lựa chọn
Se7en không chỉ đỉnh vì có một plot cực bất ngờ mà còn là một plot đầy ám ảnh.
Nhân vật Kugisaki Nobara - Jujutsu Kaisen
Nhân vật Kugisaki Nobara - Jujutsu Kaisen
Kugisaki Nobara (釘くぎ崎さき野の薔ば薇ら Kugisaki Nobara?, Đanh Kì Dã Tường Vi) là nhân vật chính thứ ba (từ gốc: tritagonist) của bộ truyện Jujutsu Kaisen
Nhân vật Tira - Thủ Lĩnh hội sát thủ Ijaniya trong Overlord
Nhân vật Tira - Thủ Lĩnh hội sát thủ Ijaniya trong Overlord
Tira chị em sinh 3 của Tina Tia , khác vs 2 chị em bị rung động bởi người khác thì Tira luôn giữ vững lập trường và trung thành tuyệt đối đối vs tổ chức sát thủ của mình
Khi doanh nhân âm thầm trả giá về tinh thần
Khi doanh nhân âm thầm trả giá về tinh thần
The Psychological Price of Entrepreneurship" là một bài viết của Jessica Bruder đăng trên inc.com vào năm 2013