Suy nghĩ về Google Translate

Computing chính là một trong những lĩnh vực ứng dụng thành quả của ngành ngôn ngữ học. Từ lâu, loài người đã mơ ước có cỗ máy có thể dịch được mọi thứ tiếng trên thế giới một cách chuẩn xác, và như các bạn đã biết, một trong những cỗ máy dịch tự động như vậy là Google Translate, tuy nó không được… chuẩn xác lắm, nhưng với cơ sở dữ liệu khổng lồ, chắc chắn nó cũng giúp ích khá nhiều cho công việc của chúng ta.

Google translate làm việc thế nào?

Tất nhiên chỉ có kẻ ngốc mới đi dịch từng từ trong câu và ghép lại, những chuyên gia ngôn ngữ làm việc cho Google không phải là những kẻ ngốc nghếch đó. Đầu tiên là phải xác định lí thuyết nào được áp dụng cho ngôn ngữ trên máy tính. Nền tảng chính của công cụ dịch này là ngữ pháp tạo sinh – cải biến (Transformational Generative Grammar).

Chủ trương nghiên cứu của ngữ pháp tạo sinh nói ngắn gọn là: từ một số lượng cấu trúc tầng sâu hữu hạn, con người sẽ sản sinh ra số lượng diễn ngôn vô hạn. Có nghĩa là, số lượng câu nói là vô hạn, nhưng số lượng cấu trúc tầng sâu chỉ là hữu hạn. Chủ trương này rất có lợi cho ngôn ngữ trên máy tính, bởi quả thực ta không thể sưu tầm đủ toàn bộ số câu nói trên đời để đưa vào cơ sở dữ liệu. Khả năng dịch câu của máy tính cần phải tiếp cận khả năng dịch của con người, để gặp một câu lạ bất kì vẫn có thể “đọc hiểu” và dịch đúng.

Một dịch giả khi nghe một câu nói mới, lập tức trong đầu xuất hiện hai thứ: cấu trúc câu nói và ý nghĩa của những từ vựng xuất hiện trong câu nói đó. Google Translate cũng vậy, khi nhập một câu nói, trước hết nó so sánh với cơ sở dữ liệu từ vựng để xác định câu nói đó thuộc ngôn ngữ nguồn nào (điều này khá dễ dàng); sau đó nó sẽ phân tích cấu trúc câu nói đó, tự động tìm cấu trúc biểu đạt tương đương ở ngôn ngữ đích. Tiếp theo, nó sẽ phân tích từ vựng của câu nguồn, và lắp ghép những từ vựng tương đương vào cấu trúc câu ngôn ngữ đích.

Tuy nhiên có một việc cần giải quyết, đó là một từ có thể có nhiều nghĩa, GT buộc phải lựa chọn giữa những ý nghĩa cho trước của từ trong cơ sở dữ liệu và quyết định sử dụng ý nghĩa nào cho câu dịch. GT sẽ tiến hành khảo sát những từ ngữ xuất hiện trước và sau từ ngữ cần dịch, để xác định câu nói đó thuộc lĩnh vực nào. Ví dụ từ “category” sẽ được dịch là “danh mục”, “loại”, hay “phạm trù”, điều đó tùy thuộc vào việc liệu GT có xác định chính xác ngữ cảnh của câu nói hay không.

Hạn chế của Google Translate

Liệu trong tương lai máy móc có thể thông minh như người?

Trong mỗi bước thực hiện thao tác dịch của mình, GT đều bộc lộ những hạn chế:

Đầu tiên, liệu GT có phân tích đúng cấu trúc của câu hay không?  GT thường không đủ dữ liệu về số cấu trúc câu thực tế của một ngôn ngữ. Bạn thử gõ câu tiếng Việt “Nghỉ ngơi vài ngày là khỏe” và xem bản dịch tiếng Anh xem thế nào, bạn nhận được một câu nói ngớ ngẩn, mặc dù câu tiếng Việt rất dễ hiểu, không chơi chữ, không ẩn ý, không từ lóng. GT chỉ biết cấu trúc “X là Y” sẽ được dịch thành “X to be Y”, mà không biết “X là Y” còn có vài ý nghĩa khác. GT còn lẫn lộn cả cấu trúc cụm từ, như việc nó hay lẫn lộn cấu trúc danh – định và cấu trúc chủ – vị trong tiếng Việt chẳng hạn.

Thứ hai, GT có sưu tập đủ số hạng mục nghĩa của một từ hay không? Khi gõ từ “chiều chuộng” và bắt GT dịch, nó dịch là “spoiled”, ok! Nhưng nếu chỉ nhập từ “chiều”, thì nó chỉ biết là “afternoon”, vì thế câu “thích thì chiều” sẽ bị dịch thành “enjoy the afternoon”. Ngôn ngữ nào được nhập càng nhiều từ thì được dịch càng chuẩn xác hơn. Ví dụ từ “stormy sea” được dịch ra tiếng Việt là “bão biển”, nhưng được dịch ra tiếng Trung là 惊涛骇浪, có vẻ cách dịch tiếng Trung đỡ máy móc hơn nhiều, vì trong cơ sở dữ liệu tiếng Trung có từ này.

Dù đã sưu tập được hết các nét nghĩa của từ ngữ, thì liệu GT có biết lựa chọn chính xác cách dịch dựa trên văn cảnh hay không? Khả năng này cũng rất hạn chế, nhất là khi gặp những cách nói hơi đặc biệt một chút.

Nguyên nhân

Nguyên nhân chính là, GT tuy đã xây dựng được thuật toán dịch, nhưng vẫn phải dựa dẫm quá nhiều vào cơ sở dữ liệu. Nó cần có CSDL thống kê tất cả cấu trúc từ, cấu trúc câu; nó cần có CSDL thống kê tất cả nghĩa của từ và phân loại từ. Điều đó xem chừng là không thể. Ngay cả những câu nói bình thường, ta cũng không mong GT có thể dịch chuẩn xác. Ta chẳng thể hi vọng nó dịch trơn tru được cả những câu nói ẩn ý, tiếng lóng, thành ngữ tục ngữ… Và ước mơ nó hiểu ngôn ngữ như một người học ngoại ngữ có vẻ quá xa vời. Ngay cả một cuốn từ điển cỡ lớn, cũng chỉ có thể liệt kê ra những nét nghĩa thường dùng nhất của từ mà thôi, nếu người dùng cố tình đảo ngược nét nghĩa đó để biểu đạt ý của mình thì… GT chắc chắn bó tay.

Vì sao thuật toán dịch của GT chưa thể hoàn thiện? Có lẽ vì bản thân lí luận cơ sở của nó chưa hoàn thiện. Ngữ pháp tạo sinh quan niệm rằng với một số lượng hữu hạn cấu trúc tầng sâu, người ta có thể tạo ra số lượng vô hạn các câu nói, điều đó là không có gì sai. Nhưng cơ chế để tạo ra những câu nói đó là thế nào? Chắc chắn không chỉ đơn giản như… cơ chế dịch của GT. Ta có thể xét đến một lí thuyết khác, đó là ngữ pháp kết cấu (Construction Grammar), và tâm lí học Gestalt.

Ngữ pháp kết cấu cho rằng, ý nghĩa của một kết cấu là một chỉnh hợp, nhưng ý nghĩa đó không thể hoàn toàn được suy luận ra dựa trên ý nghĩa của từng thành phần trong nó hoặc dựa trên một cấu trúc khác cho sẵn. Tâm lí học Gestalt cũng cho rằng, người ta nhận thức một sự vật sự việc một cách tổng thể, chứ không phải chỉ là phép cộng đơn giản của từng đặc tính đơn lẻ của sự vật sự việc. Nói cách khác, ngữ pháp không tạo sinh. Cái việc mà GT làm, chính là một phép cộng đơn giản của ý nghĩa cấu trúc và ý nghĩa từ vựng của từng câu nói. Hậu quả đã thấy rõ!

Tại sao vấn đề chưa được giải quyết?

Thứ nhất, ngữ pháp kết cấu hay tâm lí học Gestalt cũng chỉ là một trong vô số trường phái khoa học tồn tại song song tới ngày nay, nó không đủ sức mạnh để phủ nhận ngữ pháp tạo sinh hay khoa học tri nhận. Bởi vì công việc sản sinh ngôn ngữ, sử dụng ngôn ngữ của não bộ con người vẫn gần như là “công việc của Chúa”, khoa học ngày nay chưa thể hiểu hết về nó.

Thứ hai, ngữ pháp tạo sinh rất có lợi cho việc xây dựng cỗ máy dịch thuật tự động như GT, bởi nó dễ dàng được quy đổi thành các thuật toán máy tính, các công thức toán học (bản thân Noam Chomsky – cây đại thụ về ngữ pháp tạo sinh – là một nhà toán học). Trong khi muốn máy tính hiểu thế nào là một “Gestalt” thì đúng là khó hơn lên trời!

Tóm lại, lí do cho toàn bộ chuyện này là vì, chúng ta chưa đủ khả năng nghiên cứu hết bản chất của các hoạt động của não bộ loài người, vì thế ngôn ngữ học cũng chưa thể đưa ra đáp án cuối cùng cho bản chất ngôn ngữ; và ngành công nghệ thông tin cũng chưa đủ cơ sở để tiến hành mô phỏng được hoàn toàn một hoạt động nào đó của não bộ, ví như hoạt động ngôn ngữ chẳng hạn.

Ta chỉ có thể hi vọng vào tương lai của khoa học, khi các ngành thần kinh học, tâm lí học, sinh vật học, ngôn ngữ học, và công nghệ thông tin được phát triển lên một tầm cao mới. Có thể khi đó máy tính sẽ đạt tới trí thông minh nhân tạo (AI) thực sự, và giao tiếp với con người được như… Transformers.