Dịch máy dựa trên ví dụ (EBMT) là một phương pháp dịch tự động, thường có cơ sở dữ liệu sử dụng ngữ liệu song ngữ với các văn bản song song. Nhìn chung, đây là một phương pháp dịch bằng phép loại suy và có thể được xem như một cách học máy triển khai phương pháp lập luận dựa trên tình huống.
Dịch máy dựa trên ví dụ dựa trên nền tảng là ý tưởng dịch bằng phép loại suy. Đối với quá trình dịch thuật của con người, dịch loại suy bác bỏ ý tưởng rằng người dịch đã thực hiện những phân tích sâu sắc về ngôn ngữ. Thay vào đó, dịch loại suy dựa trên giả thiết rằng, trong quá trình dịch, đầu tiên người dịch phân tích một câu thành một số cụm từ nhất định, sau đó dịch các cụm từ này, cuối cùng kết hợp một cách hợp lý các đoạn này thành một câu hoàn chỉnh. Các cụm từ được dịch bằng cách so sánh loại suy với các bản dịch trước đó. Phương pháp dịch máy dựa trên ví dụ sử dụng nguyên lí của dịch ngoại suy bằng cách đưa các bản dịch mẫu vào trong cơ sở dữ liệu của hệ học máy.
Một số phương pháp dịch máy khác, bao gồm cả dịch máy thống kê, cũng sử dụng kho ngữ liệu song ngữ để học máy quá trình dịch.
Phương pháp dịch máy dựa trên ví dụ được đề xuất lần đầu tiên bởi Makoto Nagao năm 1984.[1] Ông đã chỉ ra sự thích hợp đặc biệt của phương pháp này trong việc dịch hai ngôn ngữ hoàn toàn khác nhau, chẳng hạn như tiếng Anh và tiếng Nhật. Với cách này, một câu có thể được dịch thành nhiều câu với cấu trúc ngữ pháp thích hợp với một ngôn ngữ khác. Vì vậy, phương pháp phân tích ngôn ngữ sâu của dịch máy dựa trên quy tắc là không cần thiết.
Tiếng Việt | Tiếng Nhật | |
---|---|---|
Cái ô đỏ đó giá bao nhiêu? | Ano akai kasa wa ikura desu ka. | |
Máy ảnh nhỏ đó giá bao nhiêu? | Ano chiisai kamera wa ikura desu ka. |
Hệ thống EBMT được "đào tạo" từ kho ngữ liệu song ngữ có chứa nhiều cặp câu song song như ví dụ trên. Các cặp câu bao gồm một câu trong ngôn ngữ này và câu đã được sịch sang ngôn ngữ khác. Ví dụ trên là một cặp tối thiểu, có nghĩa là chỉ có một phần tử khác nhau ở 2 cặp câu. Những cặp này giúp máy học bản dịch các phần của một câu một cách dễ dàng hơn. Cụ thể, một hệ thống dịch máy EMBT sẽ học được ba đơn vị dịch từ ví dụ trên:
Kết hợp các đơn vị dịch tương tự như trên là một chìa khoá cho phương án dịch mới mẻ và khả thi trong tương lai. Ví dụ, nếu ta đã được "huấn luyện" cách sử dụng một số văn bản có chứa các câu Tổng thống Kennedy bị bắn chết trong lễ duyệt binh. và Kẻ gây án đã bỏ trốn vào ngày 15/7, ta có thể dịch câu Kẻ gây án đã bị bắn chết trong lễ duyệt binh. bằng cách thay thế các bộ phận thích hợp của câu.