Định đề: Ý nghĩ giống nhau của 2 người không cùng ngôn
ngữ, được ghi bằng 2 tín hiệu hoàn toàn giống nhau trong não bộ.
Định đề này bắt nguồn từ lối suy nghĩ con người được tạo ra từ 1 khuôn,
với đầu, mình, tứ chi, lục phủ, ngũ tạng, tai, mắt, mũi, miệng, da với 5 giác quan, cơ quan sinh dục, não bộ, … Nhưng họ khác nhau ở kích thước, màu da, màu
tóc, ngôn ngữ (tiếng “mẹ đẻ” hoặc tiếng học hỏi từ người chung quanh). Trí thông
minh thường do bẩm sinh; nhưng kiến thức thường do học hỏi mà thành. Tạo hoá trớ
trêu khiến con người nói nhiều loại tiếng khác nhau; con người lại sáng tạo cách
viết chữ phù hợp với ngôn ngữ của mình; nên từ xưa con người luôn gặp khó khăn
trong việc giao tiếp! Hai người khó lòng hiểu nhau được khi họ nói bằng 2 ngôn
ngữ khác nhau, hoặc khi họ nói với giọng địa phương (accent), hoặc dùng thổ ngữ
(dialect).
Vào tháng 7 năm 1887, L. L. Zamenhof trình làng quyển sách về loại ngôn ngữ quốc tế Esperanto, do chính ông sáng lập sau 14 năm nghiên cứu. Loại ngôn ngữ này dựa theo
một số ngôn ngữ ở Châu Âu, với lối cấu trúc mới lạ. Ông đã không chọn một ngôn
ngữ đương thời để làm ngôn ngữ quốc tế, để tránh tự ái dân tộc của người dùng;
đồng thời đưa ra 1 quan điểm tiên phong: Esperanto
là điểm đến chung cho việc dịch thuật từ các ngôn ngữ
khác nhau… mọi quốc gia đoàn kết dưới chung một mái nhà.(Phải chăng, ông cũng từng có ý nghĩ như trong Định đề?). Tiếc
rằng loại ngôn ngữ này chưa được dựa vào các ngôn ngữ ở Châu Á, châu Phi, và thổ
ngữ ở châu Úc, châu Mỹ. Hiện giờ trên thế giới ít ai biết nói tiếng Esperanto,
nhưng người ta vẫn quan tâm đến Esperanto, thí dụ như Google Translate có thể dịch từ Esperanto sang nhiều ngôn ngữ khác (trong khi Microsoft Translator chưa thể làm được việc này).
Vào thời điểm hiện tại (năm 2018), việc dịch các chữ đơn giản
từ ngôn ngữ này sang ngôn ngữ khác là chuyện làm khá dễ dàng và mau chóng; thí
dụ như chúng ta có thể nhờ Google Translate dịch giùm “Tôi đói”, “Cảm ơn” sang
nhiều ngôn ngữ khác như dưới đây:
Tiếng Việt
|
Tôi đói
|
Cảm ơn
|
Tiếng Pháp
|
J'ai
faim
|
Merci
|
Tiếng
Anh
|
I'm
hungry
|
Thank
you
|
Tiếng Hàn
|
나는 배고파.
|
고마워.
|
Tiếng Nhật
|
私は空腹です
|
ありがとう
|
Tiếng
Trung
|
我餓了
|
謝謝
|
Tiếng Thái
|
ฉันหิว
|
ขอขอบคุณ
|
Tiếng Ấn
|
मुझे भूख लगी है
|
धन्यवाद
|
Esperanto
|
Mi
malsatas
|
Dankon
|
Nếu bạn tò mò muốn biết các chữ bên trên được phát âm như thế
nào, bạn có thể mở loa và nhờ Google Translate giúp bạn. Muốn biết bản dịch có
chính xác hay không, bạn có thể liên tục dịch xuôi, dịch ngược (back translation) để xem có “tam sao thất bổn” hay không.
Nếu bạn làm như vậy thì “Cảm ơn” thành “Merci” và đổi ngược lại “Merci” thành
“Cảm ơn bạn”; không hẳn là không hoàn toàn chính xác, nhưng trong “ruột”
(database) của Google Translate chắc đã có 2 cách dịch của chữ Merci. Nếu bạn dùng
Microsoft Translator thì “Cảm ơn” và “Merci” là cặp chữ dịch (transliterated word
pair) duy nhất.
Việc dịch bằng máy (Machine Translation – hay MT trong các đoạn
dưới đây) khơi nguồn từ cuối thập niên 1940 khi nhà Toán học Warren Weaver nghĩ
rằng dịch thuật chỉ là cách viết theo một loại ký hiệu (khác với cách viết
trong ngôn ngữ trong bản gốc). Từ đó người ta cất công tìm cách dịch theo chiều
hướng của Toán học và nảy sinh ý định dùng máy (tính) để giúp con người dịch
mau chóng hơn. Trong buổi sơ khai, MT dựa vào luật văn phạm và từ điển
(rule-based MT) và người sử dụng phải “buồn cười” với lời dịch quá ngô nghê, không
dám xử dụng kết quả của MT. Sau một thời gian, người ta đành thay thế lối dịch
này bằng Statistical MT (SMT) với database khổng lồ và máy sẽ chọn chữ nào thường
được xử dụng nhất để tạo câu trả lời. Google Translate đã đi tiên phong trong
việc dịch thuật bằng SMT; họ khuyến khích người xử dụng đóng góp những cách dịch
hay hơn nhằm cải thiện kết quả của SMT. Nhưng sau một thời gian, người ta lại thất
vọng với kết quả của SMT, nên từ năm 2017, các công ty công nghệ lớn như Google,
Microsoft chuyển hướng sang cách dùng Neural MT (NMT), dùng “thông minh nhân tạo”
(Artificial Intelligence – AI) và neural networks để “dạy” máy tính hiểu được ý của
con người.
Thật vậy, một trong những khó khăn trong MT là làm sao hiểu đúng
ý của con người. Nhiều năm về trước, một cô giáo dạy Pháp văn đố học sinh
(trung học) dịch “Je suis un chien” sang tiếng Việt; một em nhanh nhẩu đưa tay
và nói ngay “Tôi là một con chó”. Cô giáo không hài lòng và hỏi: “Còn em nào dịch
được nữa hay không?”. Cả lớp im thinh thích; rốt cuộc cô giáo nói: “Mấy em không
chịu suy nghĩ, làm sao mấy em lại có thể là con chó được; câu trả lời đúng phải
là Tôi đi theo một con chó và chữ suis
là ngôi thứ nhất, số ít của động từ Suivre!”. Đây là câu chuyện thật. Bạn có muốn
thử xem Google Translate bây giờ dịch như thế nào không? Con người mà còn lầm,
huống chi máy tính. Những người thiết kế MT hy vọng theo thời gian họ có thể dạy
máy tính càng ngày, càng khôn hơn. Họ đón nhận những ý kiến, phê bình tiêu cực từ những nhà ngôn ngữ học, những người
dịch chuyên môn (professional translator) để cải thiện sản phẩm của mình. Họ chấp
nhận rằng họ không thể thành công trong một sớm, một chiều, nhưng họ tin rồi sẽ
có ngày họ cùng những người khác, trong các lạnh vực khác, sẽ thay Tạo Hoá để tạo
một loại người máy với tất cả chức năng của một con người. Tạo Hoá “nhân tạo” này
sẽ không phải là một vật thể duy nhất, mà là một nhóm người siêu việt.
Hiểu được ý của con người, thông thường đã là một việc khó.
Người nghe phải hiểu được bối cảnh của câu chuyện, trước khi hiểu đúng
được lời nói, trước khi tìm đúng lời trong ngôn ngữ mà họ phải dùng để dịch. Theo
bài “Thôi, Bỏ đi Tám”, năm 2009, “Thôi! Bỏ đi Tám” được
Google Translate dịch thành “Blow! Discarded Eight” và hôm nay (năm 2018)
Google Translate dịch thành “Oh! Leave Eight”. Nếu không phải là người Việt, thì
khó lòng mà hiểu “Tám” ở đây không có nghĩa là số 8 mà là một loại người được mệnh
danh “Tám”. Quả như vậy thật, các Machine Translators khác cùng mắc phải sai lầm
này:
Hy vọng sẽ có một ngày MT sẽ không còn dịch “Bỏ đi Tám”, theo
kiểu “Bỏ” + ”đi” + “Tám” mà dịch theo kiểu “Bỏ đi” và dịch thành “Forget it”.
Một cái khó khăn khác cho MT là cách nói của một số người Việt;
thí dụ như “nhiêu nhiều” (không đúng ngữ pháp, một số chữ bị cắt bỏ vì người nói
nghĩ rằng không cần thiết). Nếu thêm các chữ đã bị cắt bỏ, thì “đâu có bao nhiêu mà anh nghĩ là nhiều” sẽ được các máy dịch thành
Nếu có một ngày, MT cho tiếng Việt theo kịp đà tiến hoá của MT cho các ngôn ngữ khác, thì người Việt sẽ thực thụ hội nhập với văn minh toàn cầu. Ngày đó mình sẽ có
-
How much do you think is much? (Google
Translate)
-
Don't
you think that how much more (Microsoft Translator)
-
Now
how much of that do you think is more (onlinetranslator)
-
What
he did not think much (etranslator)
Hiểu được, chết liền! Các chuyên viên MT người Việt chắc phải
mất nhiều thời giờ để “dạy” cho máy khôn hơn (vì các chuyên viên MT ngoại quốc
thường chỉ chú trọng vào các ngôn ngữ được nhiều người xử dụng, như tiếng Anh,
tiếng Pháp, tiếng Trung…).
Nếu có một ngày, MT cho tiếng Việt theo kịp đà tiến hoá của MT cho các ngôn ngữ khác, thì người Việt sẽ thực thụ hội nhập với văn minh toàn cầu. Ngày đó mình sẽ có
-
Skype Translator giúp người Việt nói chuyện trực tiếp với người ngoại quốc (hiện giờ, Skype Translator chỉ chấp nhận 10 ngôn ngữ: Anh, Pháp, Đức, Ý,
Tây Ban Nha, Bồ Đào Nha, Á Rập, Nga, Nhật,
Quang thoại);
-
dụng
cụ để biến chuyển tiếng Việt thành ký hiệu bằng ngón tay (sign language) để người
điếc có thể “nghe” được, mà không cần người phiên dịch bằng ngón tay như bây giờ.
Để tìm một hướng đi mới cho MT, có lẽ người ta phải quay lại
nhìn những gì họ đã từng làm trong mấy chục năm nay. Có lần người ta từng nghĩ dùng
tiếng Anh làm ngôn ngữ trung gian khi dịch từ ngôn ngữ A sang ngôn ngữ B (nếu A
và B không phải là tiếng Anh). Trong chiều hướng đó, Esperanto có thể được dùng
thay tiếng Anh (để tránh vấn đề tự ái dân tộc). Bây giờ nếu mình chấp nhận Định
đề ở đoạn đầu của bài này, thì việc dịch từ ngôn ngữ A sang ngôn ngữ B có thể
được tách làm 2 việc:
1. biến đổi ngôn từ trong ngôn ngữ thành
ký hiệu toán học và ký hiệu này sẽ được mọi người dùng chung (như ký hiệu trong
não bộ của con người).
2. biến đổi ký hiệu chung sang ngôn từ của
bất kỳ ngôn ngữ khác.
Trong cách này người ta vẫn phải đương đầu với trở ngại “làm
sao để hiểu được ý nghĩ của người nói”, y như trong cách làm MT bây giờ. Tuy khó,
nhưng không phải là việc không thể làm được; chúng ta hãy chờ xem.
Nếu ai không đồng ý, xin đừng vội phán “Thôi! Bỏ đi Tám”. Người viết sẽ
cương quyết biện hộ “Không, ngu sao bỏ!”. Nếu có người ngoại quốc nào muốn đọc
bài này, Microsoft Translator sẽ dịch dùm tựa bài này “Not stupid, why give up!” và Google
Translate thì bảo “No, ignore it!” (Đừng đọc!).