Vietnam Corpus Linguistics (VCL)

Researching and Developing Corpus Linguistics (Vietnam)

Cần khoa học liên ngành: Ngôn ngữ học khối liệu (Corpus Linguistics)

Posted by corling on January 26, 2010

Nguyễn Đức Hoàng

Hội Trí thức Khoa học Công nghệ trẻ VN

Tên bài được đổi từ “Ngôn ngữ học: “Đường băng” để CNTT “cất cánh””

Thứ Năm, 04/06/2009 – 2:43 PM

Ngày 02/06/2009, Báo Diễn đàn Doanh nghiệp Online đã có bài viết: Cái lý “Bill Gates không là người Việt” với câu khẳng định của một anh… cán bộ thuế: “Nếu là người Việt, chắc chắn Bill Gates sẽ biết cách làm sao để thu được nhiều nhất tiền từ bán sản phẩm hệ điều hành máy tính của hãng Microsoft”. Ấy thế nhưng, câu chuyện thật như đùa của ngành CNTT không chỉ có vậy ! DĐDN xin trân trọng giới thiệu một trong những ý kiến góp ý cho chiến lược phát triển ngành CNTT của nước nhà.

Tháng 7/2007, Bộ BCVT (nay là Bộ Thông tin và Truyền thông) đã ban hành Chỉ thị 07/CT-BBCVT về “Định hướng chiến lược phát triển CNTT-TT VN giai đoạn 2011 – 2020” (gọi tắt là “Chiến lược cất cánh”). Viện Chiến lược Bưu chính Viễn thông và Công nghệ thông tin (nay là Viện Chiến lược Thông tin và Truyền thông) đã được giao chủ trì nghiên cứu xây dựng chiến lược này cùng các văn bản, chính sách liên quan để cụ thể hoá chỉ thị này. Liệu rằng công nghệ thông tin – truyền thông VN có thể đạt được sự cất cánh như mong muốn hay không và cũng cần phải đề cập xem đòi hỏi tối thiểu cho công nghệ thông tin – truyền thông của mỗi quốc gia, mỗi dân tộc là gì.

Đòi hỏi tối thiểu là gì ?

Hẳn rằng nếu không quan tâm đúng mức cần thiết đến những đòi hỏi tối thiểu thì e rằng chiến lược CNTT-TT của VN sẽ thiếu tính thực tiễn và có thể viễn cảnh được vẽ ra sẽ rất khó trở thành hiện thực. Vậy thì đòi hỏi tối thiểu đó là gì ?

Ngược dòng lịch sử, từ khi ra đời máy tính cá nhân, VN cũng như nhiều quốc gia khác phải thực hiện được việc đưa ngôn ngữ của mình vào đó. Thực hiện được điều này, ngành báo chí – xuất bản đã có một bước ngoặt lớn là chế bản điện tử cho các nội dung cần in thay vì phải sắp chữ bản kẽm bằng các con chữ đúc sẵn vốn rất mất thời gian và khó tránh khỏi sai sót. Còn riêng với hoạt động phổ cập tin học, đó cũng là điều không thể thiếu vì với cộng đồng người sử dụng thì việc soạn thảo được văn bản tiếng Việt trên máy tính cũng là nhu cầu đương nhiên. Chính vì điều đó, nhiều nhóm chuyên gia tin học cả ở trong nước và hải ngoại đã đầu tư nhiều công sức và tiền bạc để xây dựng ra các bộ mã tiếng Việt cùng các cách soạn thảo khác nhau. Lợi thế là chữ quốc ngữ tiếng Việt thuộc hệ Latin nên việc xây dựng bộ mã cho nó là hoàn toàn có thể lợi dụng bộ mã ASCII tiêu chuẩn 8 bit rồi sử dụng phần mã còn trống của ASCII để đưa vào đó các font chữ riêng có dấu của tiếng Việt (khi chưa có mã Unicode).

Dường như nền giáo dục và khoa học VN trong rất nhiều lĩnh vực đều mắc phải căn bệnh trầm kha là chỉ quan tâm đến những định hướng cao siêu, hàn lâm mà ít ai có thể hiểu được để phản biện mà hết sức coi thường những thực tế đơn giản.

Trong quá trình thực hiện, rất nhiều thực tế đã nảy sinh vì vấn đề này đụng đến lĩnh vực ngôn ngữ học. Chính vì thế, các chuyên gia CNTT đã chủ động mời giới ngôn ngữ học cộng tác để có thể đúc rút các quy luật đặc thù của tiếng Việt. Tuy nhiên, theo TS Ngô Trung Việt – chuyên viên Viện CNTT trực thuộc Viện KHCN VN, thực tế là chính các chuyên gia CNTT đã phải tự nghiên cứu, tìm hiểu về ngôn ngữ học để phục vụ cho công việc của mình. Trong giới ngôn ngữ học có rất ít người quan tâm tới CNTT mà cố GS Hoàng Phê là một trong số những người đó.

Nổi lên trong các hệ soạn thảo tiếng Việt thời đó phải kể đến BKED của TS Quách Tuấn Ngọc (khi đó ông còn là giảng viên Đại học Bách khoa Hà Nội) với các thủ tục cho phép soát lỗi chính tả đơn âm tiết, sắp xếp danh sách họ và tên theo thứ tự vần… Về những kết quả đó, TS Quách Tuấn Ngọc thậm chí còn thẳng thắn nói, nếu không có BKED của ông thì không ít chuyên gia ngôn ngữ học cũng không để ý xem dấu phải đánh vào đâu như giữa “hoà” và “hòa” (không để ý chứ không phải là không biết).

Đáng mừng khi đó là vấn đề này đã trở thành một đề tài cấp nhà nước để xây dựng và thống nhất các bộ mã tiếng Việt. Rất nhiều hội thảo đã được tổ chức với sự hưởng ứng rất nhiệt tình của cộng đồng làm tin học là Việt kiều song dường như không có sự tham gia của các chuyên gia ngành ngôn ngữ học trong nước. Và rồi những tiêu chuẩn quốc gia cho chữ Việt trên máy tính cũng đã ra đời, giải quyết được vấn đề chuẩn chung cho các bộ mã và hệ soạn thảo. Còn về những sản phẩm thì không chỉ là các hệ soạn thảo, bộ mã mà còn có cả các hệ thống kiểm lỗi chính tả, từ điển điện tử, hệ thống phiên dịch, phần mềm nhận dạng chữ in, các hệ thống trả lời tự động qua điện thoại…

Tuy nhiên, vấn đề này đã không được tiếp tục thực hiện như một định hướng chiến lược sau đó. Thực tế này của VN khác hẳn với những nước như Trung Quốc, Nhật Bản, Hàn Quốc, Thái Lan… vì chúng ta sử dụng chữ quốc ngữ theo mẫu tự Latin nên chỉ cần soạn thảo được tiếng Việt trên máy tính thì có lẽ là đã hoàn thành nhiệm vụ (!).

Khi chiến lược quốc gia thiếu sót

Ngay sau khi Bộ BCVT ra đời, Viện Chiến lược BCVT và CNTT với sự tài trợ của Chương trình Phát triển Liên Hợp Quốc (UNDP) đã bắt tay soạn thảo Chiến lược quốc gia về CNTT-TT đến 2010 và định hướng đến 2020. Ít nhất, đã có 3 cuộc hội thảo được tổ chức trong năm 2003 để lấy ý kiến đóng góp, xây dựng. Tuy nhiên, rất tiếc là định hướng về ngôn ngữ học đã không được cả cơ quan chịu trách nhiệm soạn thảo lẫn các đại biểu tham dự đề cập mà dường như người ta chỉ tích cực bàn cãi về chuyện phải làm thế nào để nâng cao năng lực cạnh tranh CNTT cho đất nước và phấn đấu để tiến kịp các nước có trình độ CNTT phát triển.

Mãi đến cuối năm 2003, lần đầu tiên mới có một hội thảo chung giữa hai giới CNTT và ngôn ngữ học được tổ chức tại Đại học Khoa học Xã hội và Nhân văn Hà Nội. Sự kiện này diễn ra ít ngày sau hội thảo lần cuối cho quá trình soạn thảo Chiến lược quốc gia về CNTT – TT đến 2010. Nhân hội thảo này, KS Đặng Minh Tuấn – Trưởng nhóm Vietkey tỏ ý lấy làm tiếc vì trong Dự thảo Chiến lược quốc gia đã thiếu sót vấn đề hết sức quan trọng này. TS Trần Trí Dõi – Phó Chủ nhiệm Khoa Ngôn ngữ học Đại học Khoa học Xã hội và Nhân văn Hà Nội khi đó thừa nhận sự thiếu sót của dự thảo chiến lược một phần là lỗi của chính giới ngôn ngữ học vì đã không tự giới thiệu mình và chủ động tham gia các hoạt động về CNTT. Tuy nhiên theo ông, dự thảo vẫn có thể điều chỉnh, bổ sung nếu như có những kiến nghị xác đáng của cả hai giới CNTT và ngôn ngữ học. Nhưng cuối cùng vào tháng 10/2005, Dự thảo Chiến lược quốc gia về CNTT-TT đã được Chính phủ chính thức phê duyệt để ban hành với sự bỏ ngỏ về vấn đề này.

Vì sao Chiến lược quốc gia về CNTT-TT đến 2010 lại thiếu sót vấn đề hết sức quan trọng này ? Sẽ là không khách quan nếu chỉ phê phán Viện Chiến lược bưu chính viễn thông và CNTT. Thực tế là tại các cuộc hội thảo lấy ý kiến về xây dựng Chiến lược quốc gia cho CNTT-TT khi đó thì vấn đề tiếng Việt trên các hệ thống máy tính và sự tích hợp giữa CNTT và ngôn ngữ học dường như đã không được ai đề cập. Đây quả là câu chuyện của “bóng tối dưới chân cột đèn” bởi ánh sáng của ngọn đèn treo trên đó sẽ tạo ra bóng tối ở phía dưới nhưng nó nhỏ bé tới mức phải hết sức quan tâm, để ý thì mới nhìn thấy.

Theo kết quả điều tra “bỏ túi” được tiến hành với sinh viên năm cuối của Khoa CNTT Đại học Bách khoa Hà Nội và Đại học Công nghệ – ĐHQG Hà Nội với câu hỏi về tiếng Việt trên máy tính (chứ chưa phải là mối quan hệ giữa CNTT và ngôn ngữ học thì câu trả lời cũng chỉ là giải thích về cơ chế hoạt động của các hệ soạn thảo như Vietkey hay ABC mà thôi. Còn về mã tổ hợp và dựng sẵn cho font chữ tiếng Việt trong bộ mã Unicode mà báo chí đã từng tốn nhiều giấy mực hồi cuối 2002 đầu 2003 thì rất ít sinh viên biết về nó để trình bày. Theo một chuyên gia về lĩnh vực này, nguyên nhân có lẽ vì sự thiếu hiểu biết của cả một lớp người đi trước. Dường như trong ý thức và cách hiểu của họ đã không thấy được vấn đề này mà nổi lên vẫn chủ yếu là các bài toán quản lý, kế toán… Thêm nữa là dường như nền giáo dục và khoa học VN trong rất nhiều lĩnh vực đều mắc phải căn bệnh trầm kha là chỉ quan tâm đến những định hướng cao siêu, hàn lâm mà ít ai có thể hiểu được để phản biện nhưng lại hết sức coi thường những thực tế tưởng như đơn giản.

Đừng trông chờ Microsoft…

Có một thực tế không chỉ riêng với VN mà cả với nhiều quốc gia khác là người sử dụng CNTT đã “nghiện nặng” việc sử dụng hệ điều hành Windows và bộ phần mềm Office của Microsoft. Và nay, khi VN đã chính thức gia nhập WTO thì cũng đã đến lúc Microsoft chính thức gặt hái được với các cơ quan nhà nước và DN. Đầu tháng 4/2007, Bill Gates – Chủ tịch Microsoft đã trở lại VN trên cương vị Chủ tịch Quỹ Bill and Melinda Gates để triển khai các chương trình về y tế của quỹ này tại VN. Hơn một tháng sau, Tổng Giám đốc Microsoft Steve Ballmer đã đến thăm VN và trong chuyến thăm này, Microsoft đã ký được hợp đồng với Chính phủ mà thay mặt là Bộ BCVT.

Bản thân Microsoft cũng từng tung ra những sản phẩm bản địa hoá tiếng Việt với hi vọng sẽ bán cho người sử dụng VN với giá hạ hơn các phiên bản tiếng Anh với mức giá rất “quốc tế”. Tuy nhiên, thực tế là những sản phẩm này dù được bẻ khoá và bày bán công khai ở các “chợ đen” tại VN nhưng đã không được người sử dụng hưởng ứng. Nguyên nhân có lẽ vì Microsoft chỉ “tin dùng” những chuyên gia CNTT là Việt kiều không nói thạo tiếng Việt nên kết quả mà họ có thể thực hiện được bị hạn chế là đương nhiên. GS Ngô Thanh Nhàn – một Việt kiều tại Mỹ là chuyên gia về lĩnh vực này khẳng định rằng chúng ta không thể trông chờ Microsoft hay Mac OS và VN cũng không thể bản địa hoá tự do trên nền hệ điều hành sở hữu của họ. Việc này không thể có công ty tư nhân, cá nhân, nước ngoài hay thị trường tự do nào làm được ngoài Chính phủ.

Trở lại về mối quan hệ giữa CNTT và ngôn ngữ học tại VN, TS Đỗ Bá Lộc – Giảng viên Ngôn ngữ và Văn hoá VN tại Đại học Ngoại ngữ – ĐHQG Hà Nội (chuyên dạy tiếng Việt cho người nước ngoài) cho biết, ngành ngôn ngữ học đã ra đời bởi sự đóng góp rất lớn của các nhà vật lý, toán học như Lomonosov, Chromsky… Chính vì thế, các chuyên gia CNTT VN không nên chờ đợi giới ngôn ngữ mà nên chủ động trong chuyện này. Chính các khoa CNTT nên chủ động đưa ngôn ngữ học vào chương trình đào tạo của mình vì đó là định hướng mà xã hội rất cần. TS Tạ Quang Nghĩa – Phó Cục trưởng Cục Ứng dụng CNTT Bộ Thông tin – Truyền thông thì nhìn nhận, lịch sử ngành ngôn ngữ học VN tất yếu phải ghi công các chuyên gia CNTT. Chính nhờ những đóng góp của họ, ngành ngôn ngữ học VN mới có được bước chuyển mới trong thời đại CNTT. Cũng chính vì lẽ đó, hơn bao giờ hết việc soạn thảo Chiến lược quốc gia CNTT-TT giai đoạn 2011 – 2020 (tức “Chiến lược Cất cánh”) chắc chắn không thể không đề cập đến đòi hỏi tối thiểu này.

(Theo Diễn đàn doanh nghiệp online: http://dddn.com.vn/home.htm)

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

 
%d bloggers like this: