marque

*** Chào mừng bạn đang ghé thăm trang web An Phong An Bình***

Thứ Hai, 9 tháng 4, 2018

Không, ngu sao bỏ!

Định đề:  Ý nghĩ giống nhau của 2 người không cùng ngôn ngữ, được ghi bằng 2 tín hiệu hoàn toàn giống nhau trong não bộ.

Định đề này bắt nguồn từ lối suy nghĩ con người được tạo ra từ 1 khuôn, với đầu, mình, tứ chi, lục phủ, ngũ tạng, tai, mắt, mũi, miệng, da với 5 giác quan, cơ quan sinh dục, não bộ,  … Nhưng họ khác nhau ở kích thước, màu da, màu tóc, ngôn ngữ (tiếng “mẹ đẻ” hoặc tiếng học hỏi từ người chung quanh). Trí thông minh thường do bẩm sinh; nhưng kiến thức thường do học hỏi mà thành. Tạo hoá trớ trêu khiến con người nói nhiều loại tiếng khác nhau; con người lại sáng tạo cách viết chữ phù hợp với ngôn ngữ của mình; nên từ xưa con người luôn gặp khó khăn trong việc giao tiếp! Hai người khó lòng hiểu nhau được khi họ nói bằng 2 ngôn ngữ khác nhau, hoặc khi họ nói với giọng địa phương (accent), hoặc dùng thổ ngữ (dialect).

Vào tháng 7 năm 1887, L. L. Zamenhof trình làng quyển sách về loại ngôn ngữ quốc tế Esperanto, do chính ông sáng lập sau 14 năm nghiên cứu. Loại ngôn ngữ này dựa theo một số ngôn ngữ ở Châu Âu, với lối cấu trúc mới lạ. Ông đã không chọn một ngôn ngữ đương thời để làm ngôn ngữ quốc tế, để tránh tự ái dân tộc của người dùng; đồng thời đưa ra 1 quan điểm tiên phong: Esperanto là điểm đến chung cho việc dịch thuật từ các ngôn ngữ khác nhau… mọi quốc gia đoàn kết dưới chung một mái nhà.(Phải chăng, ông cũng từng có ý nghĩ như trong Định đề?). Tiếc rằng loại ngôn ngữ này chưa được dựa vào các ngôn ngữ ở Châu Á, châu Phi, và thổ ngữ ở châu Úc, châu Mỹ. Hiện giờ trên thế giới ít ai biết nói tiếng Esperanto, nhưng người ta vẫn quan tâm đến Esperanto, thí dụ như Google Translate có thể dịch từ Esperanto sang nhiều ngôn ngữ khác (trong khi Microsoft Translator chưa thể làm được việc này).

Vào thời điểm hiện tại (năm 2018), việc dịch các chữ đơn giản từ ngôn ngữ này sang ngôn ngữ khác là chuyện làm khá dễ dàng và mau chóng; thí dụ như chúng ta có thể nhờ Google Translate dịch giùm “Tôi đói”, “Cảm ơn” sang nhiều ngôn ngữ khác như dưới đây:

Tiếng Việt
Tôi đói
Cảm ơn
Tiếng Pháp
J'ai faim
Merci
Tiếng Anh
I'm hungry
Thank you
Tiếng Hàn
나는 배고파.
고마워.
Tiếng Nhật
私は空腹です
ありがとう
Tiếng Trung
我餓了
謝謝
Tiếng Thái
ฉันหิว
ขอขอบคุณ
Tiếng Ấn
मुझे भूख लगी है
धन्यवाद
Esperanto
Mi malsatas
Dankon

Nếu bạn tò mò muốn biết các chữ bên trên được phát âm như thế nào, bạn có thể mở loa và nhờ Google Translate giúp bạn. Muốn biết bản dịch có chính xác hay không, bạn có thể liên tục dịch xuôi, dịch ngược (back translation) để xem có “tam sao thất bổn” hay không. Nếu bạn làm như vậy thì “Cảm ơn” thành “Merci” và đổi ngược lại “Merci” thành “Cảm ơn bạn”; không hẳn là không hoàn toàn chính xác, nhưng trong “ruột” (database) của Google Translate chắc đã có 2 cách dịch của chữ Merci. Nếu bạn dùng Microsoft Translator thì “Cảm ơn” và “Merci” là cặp chữ dịch (transliterated word pair) duy nhất.

Việc dịch bằng máy (Machine Translation – hay MT trong các đoạn dưới đây) khơi nguồn từ cuối thập niên 1940 khi nhà Toán học Warren Weaver nghĩ rằng dịch thuật chỉ là cách viết theo một loại ký hiệu (khác với cách viết trong ngôn ngữ trong bản gốc). Từ đó người ta cất công tìm cách dịch theo chiều hướng của Toán học và nảy sinh ý định dùng máy (tính) để giúp con người dịch mau chóng hơn. Trong buổi sơ khai, MT dựa vào luật văn phạm và từ điển (rule-based MT) và người sử dụng phải “buồn cười” với lời dịch quá ngô nghê, không dám xử dụng kết quả của MT. Sau một thời gian, người ta đành thay thế lối dịch này bằng Statistical MT (SMT) với database khổng lồ và máy sẽ chọn chữ nào thường được xử dụng nhất để tạo câu trả lời. Google Translate đã đi tiên phong trong việc dịch thuật bằng SMT; họ khuyến khích người xử dụng đóng góp những cách dịch hay hơn nhằm cải thiện kết quả của SMT. Nhưng sau một thời gian, người ta lại thất vọng với kết quả của SMT, nên từ năm 2017, các công ty công nghệ lớn như Google, Microsoft chuyển hướng sang cách dùng Neural MT (NMT), dùng “thông minh nhân tạo” (Artificial Intelligence – AI) và neural networks để “dạy” máy tính hiểu được ý của con người.

Thật vậy, một trong những khó khăn trong MT là làm sao hiểu đúng ý của con người. Nhiều năm về trước, một cô giáo dạy Pháp văn đố học sinh (trung học) dịch “Je suis un chien” sang tiếng Việt; một em nhanh nhẩu đưa tay và nói ngay “Tôi là một con chó”. Cô giáo không hài lòng và hỏi: “Còn em nào dịch được nữa hay không?”. Cả lớp im thinh thích; rốt cuộc cô giáo nói: “Mấy em không chịu suy nghĩ, làm sao mấy em lại có thể là con chó được; câu trả lời đúng phải là Tôi đi theo một con chó và chữ suis là ngôi thứ nhất, số ít của động từ Suivre!”. Đây là câu chuyện thật. Bạn có muốn thử xem Google Translate bây giờ dịch như thế nào không? Con người mà còn lầm, huống chi máy tính. Những người thiết kế MT hy vọng theo thời gian họ có thể dạy máy tính càng ngày, càng khôn hơn. Họ đón nhận những ý kiến, phê bình tiêu cực từ những nhà ngôn ngữ học, những người dịch chuyên môn (professional translator) để cải thiện sản phẩm của mình. Họ chấp nhận rằng họ không thể thành công trong một sớm, một chiều, nhưng họ tin rồi sẽ có ngày họ cùng những người khác, trong các lạnh vực khác, sẽ thay Tạo Hoá để tạo một loại người máy với tất cả chức năng của một con người. Tạo Hoá “nhân tạo” này sẽ không phải là một vật thể duy nhất, mà là một nhóm người siêu việt.

Hiểu được ý của con người, thông thường đã là một việc khó. Người nghe phải hiểu được bối cảnh của câu chuyện, trước khi hiểu đúng được lời nói, trước khi tìm đúng lời trong ngôn ngữ mà họ phải dùng để dịch. Theo bài “Thôi, Bỏ đi Tám”, năm 2009, “Thôi! Bỏ đi Tám” được Google Translate dịch thành “Blow! Discarded Eight” và hôm nay (năm 2018) Google Translate dịch thành “Oh! Leave Eight”. Nếu không phải là người Việt, thì khó lòng mà hiểu “Tám” ở đây không có nghĩa là số 8 mà là một loại người được mệnh danh “Tám”. Quả như vậy thật, các Machine Translators khác cùng mắc phải sai lầm này:
-         Bing Translator Microsoft Translator dịch thành “Come on! Removed Eight”;
-         etranslator dịch thành Come on! Eight discarded”,
-         Yandex Translate onlinetranslate dịch thành ! Remove Eight”…
Hy vọng sẽ có một ngày MT sẽ không còn dịch “Bỏ đi Tám”, theo kiểu “Bỏ” + ”đi” + “Tám” mà dịch theo kiểu “Bỏ đi” và dịch thành “Forget it”.

Một cái khó khăn khác cho MT là cách nói của một số người Việt; thí dụ như “nhiêu nhiều” (không đúng ngữ pháp, một số chữ bị cắt bỏ vì người nói nghĩ rằng không cần thiết). Nếu thêm các chữ đã bị cắt bỏ, thì “đâu có bao nhiêu mà anh nghĩ là nhiều” sẽ được các máy dịch thành
-          How much do you think is much? (Google Translate)
-         Don't you think that how much more (Microsoft Translator)
-         Now how much of that do you think is more (onlinetranslator)
-         What he did not think much (etranslator)
Hiểu được, chết liền! Các chuyên viên MT người Việt chắc phải mất nhiều thời giờ để “dạy” cho máy khôn hơn (vì các chuyên viên MT ngoại quốc thường chỉ chú trọng vào các ngôn ngữ được nhiều người xử dụng, như tiếng Anh, tiếng Pháp, tiếng Trung…).

Nếu có một ngày, MT cho tiếng Việt theo kịp đà tiến hoá của MT cho các ngôn ngữ khác, thì người Việt sẽ thực thụ hội nhập với văn minh toàn cầu. Ngày đó mình sẽ có
-         Skype Translator giúp người Việt nói chuyện trực tiếp với người ngoại quốc (hiện giờ, Skype Translator chỉ chấp nhận 10 ngôn ngữ: Anh, Pháp, Đức, Ý, Tây Ban Nha, Bồ Đào Nha,  Á Rập, Nga, Nhật, Quang thoại);
-         dụng cụ để biến chuyển tiếng Việt thành ký hiệu bằng ngón tay (sign language) để người điếc có thể “nghe” được, mà không cần người phiên dịch bằng ngón tay như bây giờ.

Để tìm một hướng đi mới cho MT, có lẽ người ta phải quay lại nhìn những gì họ đã từng làm trong mấy chục năm nay. Có lần người ta từng nghĩ dùng tiếng Anh làm ngôn ngữ trung gian khi dịch từ ngôn ngữ A sang ngôn ngữ B (nếu A và B không phải là tiếng Anh). Trong chiều hướng đó, Esperanto có thể được dùng thay tiếng Anh (để tránh vấn đề tự ái dân tộc). Bây giờ nếu mình chấp nhận Định đề ở đoạn đầu của bài này, thì việc dịch từ ngôn ngữ A sang ngôn ngữ B có thể được tách làm 2 việc:
1.     biến đổi ngôn từ trong ngôn ngữ thành ký hiệu toán học và ký hiệu này sẽ được mọi người dùng chung (như ký hiệu trong não bộ của con người).
2.     biến đổi ký hiệu chung sang ngôn từ của bất kỳ ngôn ngữ khác.
Trong cách này người ta vẫn phải đương đầu với trở ngại “làm sao để hiểu được ý nghĩ của người nói”, y như trong cách làm MT bây giờ. Tuy khó, nhưng không phải là việc không thể làm được; chúng ta hãy chờ xem.

Nếu ai không đồng ý, xin đừng vội phán “Thôi! Bỏ đi Tám”. Người viết sẽ cương quyết biện hộ “Không, ngu sao bỏ!”. Nếu có người ngoại quốc nào muốn đọc bài này, Microsoft Translator sẽ dịch dùm tựa bài này “Not stupid, why give up!” và Google Translate thì bảo “No, ignore it!” (Đừng đọc!).