VIETNAM CORPUS LINGUISTICS (VCL)

NGÔN NGỮ HỌC KHỐI LIỆU

Archive for the ‘Overview of Corpus Linguistics’ Category

Vấn đề phân tích tự động thuật ngữ trong khối liệu ngôn ngữ bằng tiếng Việt

Posted by corling on December 2, 2015

TS.Đào Hồng Thu (Hà Nội)

Изображение 006 Изображение 007 Изображение 008 Изображение 009 Изображение 010

Изображение 005

Posted in Overview of Corpus Linguistics, PUBLICATIONS | Leave a Comment »

NGÔN NGỮ HỌC KHỐI LIỆU VÀ PHƯƠNG PHÁP TIẾP CẬN HIỆN NAY

Posted by corling on December 1, 2015

TS. ĐÀO HỒNG THU

IMG_0103 IMG_0104 IMG_0105 IMG_0106

IMG_0062

Posted in Overview of Corpus Linguistics, PUBLICATIONS | Leave a Comment »

Tóm lược Lý thuyết Ngôn ngữ học Khối liệu

Posted by corling on November 29, 2015

Dr. Đào Hồng Thu (2011)

IMG_0083 IMG_0084 IMG_0085 IMG_0086 IMG_0087IMG_0064

Posted in For the References, NEWS & EVENTS, Overview of Corpus Linguistics | Leave a Comment »

VẤN ĐỀ PHÂN TÍCH TỰ ĐỘNG THUẬT NGỮ TRONG KHỐI LIỆU NGÔN NGỮ TIẾNG VIỆT – T/c Từ điển học và BKT, số 4 (12) tháng 7 – 2011

Posted by corling on July 26, 2011

Dr. Dao Hong Thu 

Posted in Overview of Corpus Linguistics, PUBLICATIONS | Leave a Comment »

Ngôn ngữ học khối liệu và những vấn đề liên quan (Quyển I) – TS. Đào Hồng Thu

Posted by corling on December 27, 2009

MỞ ĐẦU

Trong những năm nửa cuối thế kỉ XX và đầu thế kỉ XXI, cùng với sự phát triển của khoa học thông tin, khoa học ngôn ngữ liên tục phát triển và hình thành các xu hướng phát triển mới nhằm đáp ứng nhu cầu hoạt động của xã hội. Song song với sự phát triển không ngừng của các thế hệ công nghệ máy tính và dịch tự động, trong ngôn ngữ học ứng dụng hình thành xu hướng phát triển mới – Corpus Linguistics (ngôn ngữ học khối liệu).

Ngôn ngữ học khối liệu là ngành khoa học trẻ, là giao điểm giữa khoa học ngôn ngữ và khoa học máy tính, được hình thành vào cuối thế kỉ XX trên cơ sở kĩ thuật điện tử số, là khoa học nghiên cứu xây dựng các khối liệu ngôn ngữ, nghiên cứu các phương pháp xử lí dữ liệu và sử dụng khối liệu.

Có thể dẫn chứng một ví dụ đơn giản về vai trò và sức sống của ngành khoa học này. Bất kì nhà ngôn ngữ nào khi nghiên cứu cũng gặp phải vấn đề về việc lựa chọn ngữ liệu cho đề tài nghiên cứu của mình, nghĩa là cần tham khảo rất nhiều loại văn bản để tìm ra các ví dụ cần thiết, và phải hài lòng với việc ngẫu nhiên lựa chọn được các ví dụ đó. May mắn là hiện nay đã có nhiều văn bản bằng các ngôn ngữ khác nhau có thể tìm kiếm được ở dạng văn bản điện tử (file của máy tính). Khả năng sử dụng các nguồn ngữ liệu trên làm dễ dàng rất nhiều quá trình tìm kiếm thô sơ, đồng thời đòi hỏi nâng cao hơn chất lượng nghiên cứu, nghĩa là số lượng ví dụ tìm kiếm được cần đầy đủ hơn nhiều cho mỗi ngôn ngữ được nghiên cứu. Tuy nhiên, làm việc với các văn bản trên file máy tính cũng không kém nhọc nhằn. Để có thể khắc phục sự mệt nhọc không cần thiết trong công việc của nhà nghiên cứu, khắp nơi trên thế giới đã thành lập các chương trình khối liệu. Các chương trình đặc thù này có thể đáp ứng rất nhiều yêu cầu của người sử dụng. Ví dụ, một chương trình về văn hóa các dân tộc Việt Nam có thể đưa ra toàn bộ các câu, tập hợp câu hoặc văn bản có chứa tập hợp từ “văn hóa dân tộc Việt Nam” được đăng trên các báo, tạp chí với đầy đủ dẫn nguồn, v.v. Nghiên cứu và tạo lập các chương trình khối liệu như trên là nhiệm vụ của ngôn ngữ học khối liệu.

Từ “khối liệu” lần đầu tiên được sử dụng như một thuật ngữ khoa học vào năm 1961 trong khối liệu Brown có chứa khoảng một triệu đơn vị từ và cụm từ sử dụng để chỉ khái niệm cơ bản của ngôn ngữ học khối liệu.

Cuốn sách “Ngôn ngữ học khối liệu và những vấn đề liên quan” (quyển I) là tập hợp các bài báo, các công trình khoa học về ngôn ngữ học khối liệu, dịch tự động, dịch văn bản khoa học kĩ thuật – công nghệ và những vấn đề liên quan đến môi trường đào tạo sinh viên thuộc khối khoa học và công nghệ trong vòng hơn thập kỉ qua.

Nội dung cuốn sách được chia thành 5 phần chính bao gồm:

Phần I – Ngôn ngữ học khối liệu

Phần II – Dịch thuật và dịch tự động

Phần III – Ngôn ngữ khoa học chuyên ngành

Phần IV – Công nghệ dạy học

Phần V – Các vấn đề liên quan

Phần I gồm các bài báo giới thiệu sơ lược quá trình hình thành và phát triển của ngôn ngữ học khối liệu (tiếng Việt), bài báo về đặc điểm của khối liệu văn bản song song Nga – Việt hiện nay (tiếng Nga).

Phần II bao gồm các bài báo (tiếng Nga) trên cơ sở các nghiên cứu khoa học về dịch tự động đã được thực hiện tại Trường Đại học Sư phạm Hersen A.I., Saint Peterburg (Liên bang Nga), Trường Đại học Tổng hợp Saint Peterburg và Viện Ngôn ngữ Liên bang Nga; các bài báo (tiếng Việt) về vấn đề dịch văn bản và mở nghĩa văn bản khoa học kĩ thuật – công nghệ trong dịch thuật.

Phần III đề cập đến các vấn đề liên quan trực tiếp đến ngôn ngữ học khối liệu mang tính lí luận và thực hành hiện nay về ngôn ngữ khoa học chuyên ngành (tiếng Việt, tiếng Anh, tiếng Nga) đang được sử dụng để giảng dạy cho sinh viên khối khoa học và công nghệ, cũng như các giải pháp khắc phục hoặc phương pháp thực hiện như các vấn đề về phát triển ngôn ngữ (tiếng Việt và tiếng nước ngoài) khoa học – công nghệ trong thời kì hội nhập quốc tế của Việt Nam, đối chiếu ngôn ngữ văn bản khoa học và công nghệ, phong cách ngôn ngữ văn bản khoa học và công nghệ, ngôn ngữ chuyên ngành khoa học trong giao tiếp, thuật ngữ khoa học – công nghệ v.v.

Phần IV nêu vấn đề về giảng dạy ngôn ngữ (bản ngữ và ngoại ngữ) theo phương pháp giao tiếp, dạy ngoại ngữ trong môi trường không chuyên và các vấn đề liên quan đến giảng dạy ngôn ngữ trong trường đại học.

Phần V đề cập các vấn đề ngôn ngữ và văn hóa trong môi trường giáo dục, khoa học và công nghệ.

Cuốn sách có thể sử dụng làm tài liệu tham khảo dành cho sinh viên, học viên cao học, nghiên cứu sinh, nghiên cứu viên và độc giả quan tâm đến ngôn ngữ học ứng dụng, dịch thuật và các vấn đề liên quan.

Tác giả trân trọng cảm tạ GS.VS. Belaeva L.H. cùng tập thể giáo sư, phó giáo sư Bộ môn Ngôn ngữ học ứng dụng, Khoa Ngôn ngữ, Trường Đại học Sư phạm Hersen A.I., Saint Peterburg; PGS.TS. Zakharov B.P., PGS.TS. Mitrophanova O.A. cùng các đồng nghiệp Bộ môn Ngôn ngữ toán học, Khoa Ngôn ngữ và nghệ thuật, Trường Đại học Tổng hợp Saint Peterburg; các giáo sư, viện sĩ Viện Ngôn ngữ Liên bang Nga tại Saint Peterburg; Thư viện Viện Hàn lâm khoa học Liên bang Nga tại Saint Peterburg đã cố vấn, hướng dẫn cho tác giả trong quá trình hoạt động khoa học tại Saint Peterburg, Liên bang Nga.

Tác giả trân trọng cảm tạ GS.TS. Lê Quang Thiêm, Tổng biên tập Tạp chí Ngôn ngữ và Đời sống và Ban biên tập Tạp chí; Ban lãnh đạo Viện Ngôn ngữ học và Hội Ngôn ngữ học Việt Nam; GS.TS. Đinh Văn Đức và Ban Chủ nhiệm Khoa Ngôn ngữ, Trường Đại học Khoa học xã hội và Nhân văn, Đại học Quốc gia Hà Nội đã nhiệt tình giúp đỡ tác giả thực hiện công trình nghiên cứu về ngôn ngữ học khối liệu và dịch tự động (dịch máy) tại Việt Nam.

Tác giả trân trọng cảm ơn TS. Nguyễn Xuân Dũng, Giám đốc – Tổng biên tập và các phòng chức năng Nhà xuất bản Khoa học xã hội, PGS.TS. Phạm Văn Tình đã tận tình giúp đỡ tác giả biên tập và cho ra mắt bạn đọc cuốn sách “Ngôn ngữ học khối liệu và những vấn đề liên quan” (quyển I).

Tác giả xin chân thành cảm ơn bạn bè, đồng nghiệp và các con đã tạo điều kiện tốt nhất cho việc hoàn thành cuốn sách này. 

Tác giả

 TS. ĐÀO HỒNG THU

Posted in For the References, Overview of Corpus Linguistics, PUBLICATIONS | 4 Comments »

KHỐI LIỆU – ĐẶC TRƯNG VÀ PHÂN LOẠI (Phần 2)*

Posted by corling on December 21, 2009

TS. Đào Hồng Thu (Hà Nội)

 

Trong phần 1, chúng tôi đã đưa ra các khái niệm: khối liệu, ngôn ngữ học khối liệu (ngôn ngữ học corpus), corpus, corpus văn bản. Trong đó, các thuật ngữ corpus và corpus văn bản là tương đồng về ngữ nghĩa. Về mặt tiếng Việt, các thuật ngữ trên có thể đặt ở vị trí tương đồng với thuật ngữ “khối liệu”.

Khối liệu là tập hợp các dữ liệu tương đồng về mặt ngôn ngữ, được trình bày dưới dạng model văn bản điện tử, theo các cấu trúc nhất định. Khối liệu được sử dụng để giải quyết các vấn đề về ngôn ngữ trong các lĩnh vực khoa học cụ thể. Việc tìm kiếm dữ liệu trong khối liệu theo bất kì từ nào đều cho phép lập danh mục tất cả các trường hợp sử dụng từ đã cho trong ngữ cảnh với đầy đủ dẫn nguồn. Khối liệu có thể được sử dụng làm cẩm nang hướng dẫn và tìm kiếm thông tin, cũng như dữ liệu thống kê về các đơn vị ngôn ngữ và lời nói. Trên cơ sở khối liệu chúng ta có thể nhận được các dữ liệu về tần số hình thái từ, đơn vị từ vựng, phạm trù ngữ pháp; có thể theo dõi được các thay đổi về tần số và ngữ cảnh ở các thời điểm khác nhau v.v. Cuối cùng, khối liệu được sử dụng làm cơ sở và công cụ biên soạn các thể loại từ điển lịch sử và hiện đại khác nhau; được sử dụng để xây dựng và giải thích ngữ pháp; để phục vụ cho việc dạy học bản ngữ và ngoại ngữ cũng như dịch thuật.

1. CÁC ĐẶC TRƯNG CƠ BẢN CỦA KHỐI LIỆU

Có thể nói rằng khối liệu là mô hình nhỏ nhất của ngôn ngữ. Căn cứ vào hoạt động của khối liệu trong các hệ thống của nó có thể thấy các đặc trưng cơ bản sau:

a. Tính điển hình

Đây là khái niệm quan trọng nhất của ngôn ngữ học khối liệu. Đặc trưng này xác định tính thực tiễn của khối liệu, có nghĩa là khối liệu phải là tập hợp của nhiều loại văn bản phù hợp cho việc nghiên cứu đối với nhiều ngôn ngữ. Điều đặc biệt quan trọng là khối liệu chung phải hàm chứa được một tỉ lệ xác định các văn bản thuộc nhiều thể loại, tại nhiều thời điểm lịch sử, của nhiều tác giả khác nhau v.v.

Tính điển hình của khối liệu có thể được hiểu là sự thể hiện tỉ lệ cần và đủ trong khối liệu về dung lượng, thể loại, phong cách, số lượng tác giả, vùng địa lí, thời kì lịch sử v.v.

b. Kích cỡ xác định

Khái niệm “khối liệu” có nghĩa thông thường là tập hợp các văn bản có kích cỡ xác định. Theo thời gian, kích cỡ (dung lượng và thành phần) của khối liệu có thể thay đổi. Tuy nhiên, những thay đổi này không được kéo theo sự thay đổi về tính điển hình của toàn khối, hoặc phải thay đổi nền của khối liệu cần thay đổi.

Các khối liệu ban đầu như khối liệu Brown hoặc khối liệu tiếng Nga Upsanski bao gồm một triệu đơn vị từ và cụm từ sử dụng. Ngày nay, các khối liệu cần chứa được ít nhất là 100 triệu đơn vị từ và cụm từ sử dụng.

Khi xây dựng khối liệu cần lưu ý đến mục đích sử dụng ngữ liệu khối và người sử dụng khối liệu được tạo lập. Quá trình xây dựng khối liệu cho thấy mỗi nhóm người sử dụng khối liệu đều có nhu cầu riêng của mình. Ví dụ, phần lớn người sử dụng tìm trong khối liệu các từ hoặc cụm từ khi gặp phải các vấn đề chính tả hoặc phong cách của chúng, thường là họ tìm đồng nghĩa của từ hoặc cụm từ. Đối với các trường hợp như vậy thì chỉ cần xây dựng khối liệu ngôn ngữ vừa đủ, có thể chấp nhận một số từ hoặc cụm từ trong khối chưa mang đầy đủ tính điển hình của khối liệu được tạo dựng với nguồn từ điển thông dụng của ngôn ngữ toàn dân. Một ví dụ khác, đối với người sử dụng là chuyên gia một chuyên ngành công nghệ chẳng hạn thì người xây dựng khối liệu cần tuân thủ đầy đủ các nguyên tắc về tính điển hình, kích cỡ xác định và phong cách ngôn ngữ của chuyên ngành đó bên cạnh một lượng dự trữ từ và cụm từ của từ điển thông dụng. Hoặc đối với người sử dụng là nhà từ vựng học thì ngoài nguồn từ và cụm từ của từ điển thông dụng ra còn cần một lượng các đơn vị từ theo chuyên ngành cụ thể và các phương tiện ngôn ngữ kèm theo. Đối với người sử dụng là các nhà lí luận ngôn ngữ và chuyên gia trong lĩnh vực soạn thảo ngôn ngữ máy tính thì cần khối liệu đặc trưng về mặt ngôn ngữ, bao gồm các dữ liệu về từ vựng – ngữ nghĩa, cú pháp và hình thái học.

c. Tính chú giải

Để giải quyết được các vấn đề ngôn ngữ khác nhau trong khối liệu, khi xây dựng khối liệu cần có lượng đáng kể chú giải thông tin ngôn ngữ và ngôn ngữ thuộc các thể loại khác nhau. Vì vậy, trong ngôn ngữ học khối liệu hình thành các khối chú giải thông tin. Chú giải (tagging) là phần giải thích các thông tin đặc thù làm rõ nghĩa cho các văn bản trong khối liệu như là chú giải bên ngoài, ngoại ngôn ngữ (ví dụ, chú giải về tác giả: tên, tuổi, giới tính, năm sinh v.v. và về văn bản: tác giả, tên văn bản, năm và nơi xuất bản, thể loại, phong cách ngôn ngữ v.v.); hoặc là chú giải cấu trúc (ví dụ, chương, đoạn, câu, hình thái từ v.v.); hoặc là chú giải cho chính ngôn ngữ văn bản về từ vựng, cú pháp.

Các nghiên cứu về ngôn ngữ học khối liệu đã cho thấy việc xác định và lựa chọn các loại hình chú giải phải do các nhà ngôn ngữ tiến hành trên cơ sở các văn bản được lựa chọn cho việc xây dựng khối liệu.

Chú giải trong khối liệu có thể được chia thành:

  •  Chú giải hình thái học

Đây là dạng cơ bản trong phân tích và xây dựng khối liệu bởi vì phần lớn các khối liệu lớn chính là các khối liệu nhỏ được chú giải hợp lại về mặt hình thái học. Trong quá trình xây dựng khối liệu, phân tích hình thái học được xem là cơ sở của phân tích cú pháp và phân tích ngữ nghĩa.

Chú giải hình thái học bao gồm chú giải các thành phần lời nói (viết và nói) và phạm trù ngữ pháp của các thành phần đó trong khối liệu. Đơn vị chú giải hình thái học là từ (<w>) hoặc cụm từ.

Hiện nay, các thành tựu về hình thái học máy tính đã phát triển ở mức độ cho phép tự động chú giải các khối liệu có kích cỡ lớn. Chú giải hình thái học ngày nay thường được thực hiện một cách tự động nhưng bắt buộc phải có sự tham gia của con người vào việc lựa chọn nghĩa từ xác định trong ngữ cảnh cụ thể cho khối liệu do trong phân tích hình thái học có thể xảy ra các hiện tượng đa nghĩa của từ.

Các nghiên cứu về khối liệu cho thấy nếu chú giải hình thái học được lựa chọn càng nhiều bao nhiêu thì phân tích văn bản càng được chi tiết bấy nhiêu. Ngày nay đang có xu hướng giảm số lượng chú giải hình thái học do dung lượng các khối liệu ngày càng tăng. Hệ thống làm đơn giản quá trình mã hóa tạo điều kiện cho việc tránh mắc lỗi không cần thiết, sử dụng một cách lôgíc các dữ liệu, tránh các trường hợp đa nghĩa của từ trong văn bản và tăng tốc độ chú giải của các khối liệu lớn với hàng triệu từ.  

  •  Chú giải cú pháp  

Chú giải cú pháp là kết quả của phân tích cú pháp được thực hiện trên cơ sở dữ liệu về phân tích hình thái học. Đây là dạng chú giải mô tả các mối quan hệ cú pháp giữa các đơn vị từ vựng và cấu trúc cú pháp khác nhau (ví dụ, mệnh đề phụ thuộc, mệnh đề độc lập, thành ngữ v.v.).

Hiện nay, ở mức độ phân tích cú pháp đang tồn tại xu hướng chi tiết hóa nhỏ nhất việc mã hóa chú giải để tăng tốc độ và trình tự phân tích văn bản. Điều này cũng diễn ra đối với chú giải hình thái học và chú giải ngữ nghĩa.

  •  Chú giải ngữ nghĩa

Trong quá trình xây dựng khối liệu thì phần chú giải ngữ nghĩa là phần phức tạp và khó khăn nhất. Cho đến nay, đối với ngữ nghĩa học dành cho khối liệu vẫn chưa có sự đồng nhất chung về mặt lí luận. Tuy vậy, các phạm trù ngữ nghĩa của các đơn vị từ và cụm từ sử dụng đã được xác định khá rõ ràng cho việc xây dựng các khối liệu cụ thể. 

Do tính chất phức tạp trong việc lựa chọn các chú giải ngữ nghĩa cho khối liệu nên hiện nay các nhà nghiên cứu ngôn ngữ học khối liệu đang tập trung rất nhiều công sức vào lĩnh vực phát triển này. Một điều hiển nhiên là chú giải ngữ nghĩa hiện đang được phát triển rất mạnh bởi tính xác thực của nó đối với hoạt động của khối liệu, nghĩa là chú giải ngữ nghĩa đảm bảo cho việc thực hiện chức năng quan trọng nhất trong hệ thống khối liệu là tạo khả năng so sánh các văn bản khác nhau với mục đích tích lũy các ngân hàng kiến thức và phục vụ cho việc nhanh chóng tìm kiếm các thông tin cần thiết.

Kiểu chú giải ngữ nghĩa là các mã (code) gồm các con chữ và chữ số. Các nghiên cứu cho thấy có khoảng 250 – 300 đơn vị mã để phân loại toàn bộ từ vựng.

  • Ngoài các loại hình chú giải chủ yếu trên còn tồn tại các chú giải khác như chú giải từ loại, chú giải ngôn điệu, chú giải bình luận hoặc tranh luận v.v.

2. PHÂN LOẠI CÁC KHỐI LIỆU CHỦ YẾU

Trong Ngôn ngữ học khối liệu, khối liệu có thể được phân loại theo phương thức phân nhóm hoặc theo kiểu chú giải ngôn ngữ. Mặc dù tồn tại nhiều kiểu chú giải, trên thực tế, phần lớn các khối liệu có kiểu chú giải cú pháp / hình thái học (treebanks – ngân hàng cấu trúc cú pháp – ĐHT dịch). Một điều hiển nhiên và cần nhấn mạnh là khối liệu có chú giải cú pháp luôn hàm chứa các đặc trưng hình thái học của các đơn vị từ vựng.

Căn cứ vào mục đích nghiên cứu – sử dụng khối liệu và đặc điểm hoạt động của nó, có thể phân loại như sau:

  • Theo kiểu dữ liệu, các khối liệu được chia thành khối liệu viết, khối liệu nói, khối liệu kết hợp;
  • Theo ngôn ngữ văn bản, các khối liệu được chia thành khối liệu tiếng Việt, khối liệu tiếng Anh, khối liệu tiếng Nga;
  • Theo đặc tính song song của văn bản, các khối liệu được chia thành khối liệu đơn ngữ, khối liệu song ngữ và khối liệu đa ngữ;
  • Theo thể loại chuyên ngành, các khối liệu được chia thành khối liệu khoa học phổ biến, khối liệu không phổ biến, khối liệu ngôn ngữ học ứng dụng, khối liệu khoa học kĩ thuật và công nghệ;
  • Theo tính chất chú giải, các khối liệu được chia thành khối liệu có chú giải và khối liệu không có chú giải;
  • Theo chức năng và mục đích sử dụng, các khối liệu được chia thành khối liệu nghiên cứu, khối liệu minh họa, khối liệu tham khảo;
  • Theo tính chất xã hội của văn bản, các khối liệu được chia thành khối liệu cộng đồng, khối liệu tác phẩm.

TÀI LIỆU THAM KHẢO 

  1. Баранов А.Н. (2001). Корпусная лингвистика // Баранов А.Н. Введение в прикладную лингвистику. М., c.112–137.
  2. Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных» (2002) // Под ред. А.С. Герда. СПб.
  3. Марчук Ю.Н. (2002). Корпус текстов и сверхбольшие базы лингвистических данных//Сборник: Труды международной конференции «Корпусная лингвистика – 2002». – Издательство Санкт-Петербургского университета.
  4. Лингвистический энциклопедический словарь. (1990). Главн. ред. В.Н. Ярцева. М., 685 с.
  5. Holmes-Higgin P., Ahmad K. (1996). Assembling and Viewing a Corpus of Texts: Self-organisation, Logical Deduction and Spreading Activation as Metaphors // Euralex’96 Proceedings. – Stockholm.
  6. Рыков В.В. (1999). Прагматически ориентированный корпус текстов// Тверской лингвистический меридиан. Вып. 3. Тверь, c. 89–96.
  7. Труды Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-2003», «Диалог-2004», «Диалог-2005».
  8. Труды Международной научной конференции «Корпусная лингвистика 2004» / (2004). Под ред. А.С. Герда. СПб.
  9. Чардин И.С. (2003). Лингвистические корпуса с синтаксической разметкой и их применение // Научно-техническая информация. Сер. 2. 2003. № 6. – стр. 18–24.
  10. English Corpus Linguistics: Studies in Honour of Jan Svartvik (1991). Aijmer K., Altenberg B. (eds.). London.
  11. Fillmore C.J., Atkins B.T.S. (1994). Starting Where the Dictionaries Stop: the Challenge of Corpus Lexicography//Atkins B.T.S., Zampolli A. (eds.). Computational Approaches to the Lexicon.
  12. Kennedy G. (1998). An Introduction to Corpus Linguistics. London.
  13. Leech G. (1991). The State of Art in Corpus Linguistics // English Corpus Linguistics / Aijmer K., Altenberg B. (eds.). London, pp. 8–29.
  14. McEnery A., Wilson A. (1996). Corpus Linguistics. Edinburgh.
  15. Francis N.W. (1991). Language Corpora B.C.//Directions in Corpus Linguistics: Proceedings of Nobel Symposium 82. Stockholm, 4.–6. August 1991. / Svartvik J. (ed.), pp. 17–32.
  16. Quyrck R. (1992). On Corpus Principles and Design // Directions in Corpus Linguistics. Berlin; New York, pp. 461–462.
  17. Sinclair J. M. (1992). The Automatic Analysis of Corpora // Directions in Corpus Linguistics. Berlin.
  18. Svartvik, J. (ed.). (1992). Directions in Corpus Linguistics. Berlin.
  19. Zakharov V. (2003). Russian Corpus of the 19th Century // Text, Speech and Dialogue: Proceedings of the 6th International Conference TSD, pp. 146–151.
  20. Дао Хонг Тху (2006). Корпус параллельных текстов в аспекте корпусной лингвистики // Проблемы современной филологии и лингводидактики. Cб. научных трудов, СПб, изд. РГПУ им. А.И.Герцена, с.23-28. 

*Dr. Đào Hồng Thu (2008). Tạp chí Ngôn ngữ và Đời sống. Số 1+2 (147+148), tr.23-26.

Posted in For the References, Overview of Corpus Linguistics, PUBLICATIONS | Leave a Comment »

Ngôn ngữ học khối liệu (Corpus) – Phần I*

Posted by corling on December 20, 2009

TS. Đào Hồng Thu (Hà Nội)

 

1. Dẫn nhập

Thực tế đã chứng minh rằng khoa học về ngôn ngữ luôn gắn liền với các thành tựu của khoa học kĩ thuật và công nghệ. Sự ra đời và phát triển của máy tính đã dẫn đến sự hình thành và phát triển của nhiều lĩnh vực khoa học, trong đó có các lĩnh vực của ngôn ngữ học ứng dụng.

Trong những năm nửa cuối thế kỉ XX và đầu thế kỉ XXI, cùng với sự phát triển của khoa học thông tin, khoa học ngôn ngữ liên tục phát triển và hình thành các xu hướng phát triển mới nhằm đáp ứng nhu cầu hoạt động của xã hội. Song song với sự phát triển không ngừng của các thế hệ công nghệ máy tính và dịch tự động, trong ngôn ngữ học ứng dụng hình thành xu hướng phát triển mới – Ngôn ngữ học Corpus (Ngôn ngữ học khối liệu).

Ngôn ngữ học Corpus (Ngôn ngữ học khối liệu) là ngành khoa học trẻ, là giao điểm giữa khoa học ngôn ngữ và khoa học máy tính, được hình thành vào cuối thế kỉ XX trên cơ sở kĩ thuật điện tử số, là khoa học nghiên cứu xây dựng các khối liệu ngôn ngữ, nghiên cứu các phương pháp xử lí dữ liệu và sử dụng khối liệu,  

         Có thể dẫn chứng một ví dụ đơn giản về vai trò và sức sống của ngành khoa học này. Bất kì nhà ngôn ngữ nào khi nghiên cứu cũng gặp phải vấn đề về việc lựa chọn ngữ liệu cho đề tài nghiên cứu của mình, nghĩa là cần tham khảo rất nhiều loại văn bản để tìm ra các ví dụ cần thiết, và phải hài lòng với việc ngẫu nhiên lựa chọn được các ví dụ đó. May mắn là hiện nay đã có nhiều văn bản bằng các ngôn ngữ khác nhau có thể tìm kiếm được ở dạng văn bản điện tử (file của máy tính). Khả năng sử dụng các nguồn ngữ liệu trên làm dễ dàng rất nhiều quá trình tìm kiếm thô sơ, đồng thời đòi hỏi nâng cao hơn chất lượng nghiên cứu, nghĩa là số lượng ví dụ tìm kiếm được cần đầy đủ hơn nhiều cho mỗi ngôn ngữ được nghiên cứu. Tuy nhiên, làm việc với các văn bản trên file máy tính cũng không kém nhọc nhằn. Để có thể khắc phục sự mệt nhọc không cần thiết trong công việc của nhà nghiên cứu, khắp nơi trên thế giới đã thành lập các chương trình khối liệu. Các chương trình đặc thù này có thể đáp ứng rất nhiều yêu cầu của người sử dụng, ví dụ, một chương trình về văn học Việt Nam thế kỉ XX có thể đưa ra toàn bộ các câu, tập hợp câu hoặc văn bản có chứa tập hợp từ “văn học Việt Nam” được đăng trên các báo, tạp chí v.v. Nghiên cứu và tạo lập các chương trình khối liệu như trên là nhiệm vụ của Ngôn ngữ học khối liệu.

2. Các khái niệm cơ bản

Từ “khối liệu” lần đầu tiên được sử dụng như một thuật ngữ khoa học vào năm 1961[1] để chỉ khái niệm cơ bản của Ngôn ngữ học khối liệu. Thuật ngữ này được dùng trong tập hợp các văn bản bằng các ngôn ngữ khác nhau dưới dạng văn bản điện tử (file của máy tính): khối liệu Brown, khối liệu London-Lund v.v,

Các nhà nghiên cứu người Anh T. McEnery và A. Wilson đã đưa ra định nghĩa chung cho khái niệm khối liệu như sau:

  1. (sử dụng tự do) khối liệu là văn bản bất kì;
  2. (sử dụng thường xuyên) khối liệu là văn bản điện tử;
  3. (sử dụng theo phong cách ngôn ngữ) khối liệu là văn bản điện tử, được tập hợp sao cho có sự hiện diện của tất cả các phong cách ngôn ngữ chức năng.[2]

Có thể coi một tập hợp bất kì các văn bản là khối liệu. Theo tiếng La tinh, khối liệu có nghĩa là “any body of text”[3] (khối văn bản bất kì – ĐHT dịch). Tuy nhiên, thuật ngữ “khối liệu” khi được sử dụng trong ngữ cảnh cụ thể của ngôn ngữ học hiện đại, cụ thể là trong ngôn ngữ học máy tính, sẽ có ý nghĩa đặc trưng hơn nhiều so với định nghĩa đơn giản vừa nêu trên. Nếu nhìn nhận từ góc độ khối liệu là cơ sở của Ngôn ngữ học khối liệu – khoa học nghiên cứu các phương pháp xây dựng và sử dụng khối liệu với sự trợ giúp của công nghệ máy tính, – thì có thể dựa vào bốn đặc điểm cơ bản sau đây để định nghĩa khối liệu:

          * Bao gồm các model điển hình. Nếu là khối liệu của hai ngôn ngữ thì cần bao gồm các model tương đồng điển hình;

          * Có kích cỡ xác định;

          * Ở dạng đọc được trên máy tính;

          * Có các chú giải chuẩn về mặt ngôn ngữ.

         Căn cứ vào bản chất và hoạt động ngôn ngữ của khối liệu, có thể định nghĩa khối liệu là tập hợp các dữ liệu tương đồng về mặt ngôn ngữ, được trình bày dưới dạng model văn bản điện tử, theo các cấu trúc nhất định và được sử dụng để giải quyết các vấn đề ngôn ngữ cụ thể. Khối liệu trong ngôn ngữ học máy tính bao gồm cả hệ thống điều chỉnh dữ liệu của văn bản nhằm giúp người sử dụng tìm kiếm được các thông tin cần thiết một cách nhanh chóng và dễ dàng.

         Khối liệu là công cụ để xây dựng, điều chỉnh và bổ sung các hệ thống tự động hóa khác nhau như dịch tự động, nhận dạng lời nói, tìm kiếm thông tin. Ví dụ, tìm kiếm trong khối liệu các dữ liệu theo một từ bất kì có thể tạo ra được cả một danh mục liệt kê tất cả các trường hợp có sử dụng từ đó với đầy đủ thông tin về nguồn gốc dữ liệu. Đối với các nhà nghiên cứu ngôn ngữ, sử dụng khối liệu sẽ tiết kiệm được rất nhiều thời gian và công sức.

Khối liệu văn bản là cần thiết và hữu ích đối với giới ngôn ngữ học hiện đại bởi vì chúng tạo ra những khả năng mới cho việc nghiên cứu của các nhà ngôn ngữ, làm tiết kiệm đáng kể thời gian và đảm bảo cập nhật được lượng lớn thông tin một cách rất nhanh chóng. Nhờ khối liệu có thể trong vài giây biết được tần số sử dụng của các loại từ và cụm từ cần nghiên cứu, theo dõi thường xuyên và điều chỉnh được tần số xuất hiện của chúng trên các phương tiện thông tin khoa học và đại chúng. 

Tìm kiếm dữ liệu trong khối liệu cho phép trên cơ sở một từ bất kì tạo ra được danh mục của tất cả các trường hợp sử dụng của từ đó trong ngữ cảnh với nguồn trích dẫn đầy đủ. Các khối liệu có thể được sử dụng để nhận biết các thông tin hướng dẫn, tham khảo và số liệu thống kê về các đơn vị ngôn ngữ và lời nói. Khối liệu có thể cung cấp cho người sử dụng các thông tin về tần số hoạt động của từ và cụm từ,  lexeme và v.v.

Khối liệu cho phép theo dõi các thay đổi về tần số sử dụng các đơn vị từ vựng và các ngữ cảnh ở các giai đoạn phát triển khác nhau của lịch sử xã hội loài người. Khi nhận được các dữ liệu ngôn ngữ trong một giai đoạn phát triển lịch sử nhất định từ khối liệu, người sử dụng có thể nghiên cứu các quá trình biến đổi thành phần từ vựng của ngôn ngữ trên thực tế, có thể tiến hành các phân tích cú pháp ở các thể loại văn bản và của các tác giả khác nhau.

Khối liệu còn được sử dụng làm cơ sở cho việc chuẩn bị các loại từ điển hiện đại và lịch sử khác nhau một cách nhanh chóng và hiệu quả. Vai trò của Ngôn ngữ học khối liệu càng được khẳng định khi các công trình nghiên cứu về khối liệu cho thấy khối liệu có thể sử dụng để xây dựng các kĩ năng và kiểm tra ngữ pháp trong quá trình dạy học ngoại ngữ và dịch thuật.

3. Lược sử quá trình hình thành và phát triển của Ngôn ngữ học khối liệu

Xuất phát điểm của sự hình thành và ra đời Ngôn ngữ học khối liệu có thể tính vào thời điểm đầu những năm 60 thế kỉ XX, khi xuất hiện khối liệu văn bản ngôn ngữ đầu tiên tại Mĩ và bắt đầu phát triển trong vòng hai thập kỉ trở lại đây. Năm 1963, lần đầu tiên khối liệu văn bản điện tử – khối liệu Brown được xây dựng tại trường đại học Brown (Mĩ) do các tác giả là W. Francis và H. Kucera thiết kế và xây dựng bao gồm 1 triệu đơn vị từ và cụm từ Anh – Mĩ từ các văn bản in ấn được lựa chọn vào năm 1961. Sự xuất hiện của khối liệu Brown đã gây sự quan tâm lớn không những đối với các nhà ngôn ngữ học, trước hết, về các nguyên tắc lựa chọn văn bản và các nhiệm vụ được giải quyết trong khối liệu.

Tiếp theo khối liệu Brown là sự ra đời của hàng loạt các khối liệu. Các nghiên cứu cho thấy rằng Ngôn ngữ học khối liệu được hình thành như một ngành khoa học độc lập về ngôn ngữ văn bản là vào những năm 90 thế kỉ XX. Ngôn ngữ học khối liệu vẫn có các mối quan hệ mật thiết với Ngôn ngữ học máy tính qua việc sử dụng các thành tựu của Ngôn ngữ học máy tính và ngược lại, gây ảnh hưởng tích cực lên Ngôn ngữ học máy tính trong quá trình phát triển.

Trong thập kỉ vừa qua, tại nhiều quốc gia đã và đang tiến hành việc xây dựng các khối liệu trên cơ sở bản ngữ. Trong đó, mạnh mẽ hơn cả là công trình xây dựng khối liệu tiếng Anh, xuất hiện lần đầu tiên vào những năm 60 thế kỉ XX, điển hình sau khối liệu Brown University là khối liệu Lancaster/Oslo-Bergen (LOB). Mỗi khối liệu chứa khoảng 1 triệu đơn vị từ và cụm từ sử dụng với sơ đồ hình thái học. Ngoài ra, khối liệu Lancaster/Oslo-Bergen còn chứa 2 khối liệu con là Leeds-Lancaster Treebank và Lancaster Parsed với sơ đồ cú pháp học. Khối liệu Anh Quốc (BNC) chứa đến 100 triệu đơn vị từ và cụm từ sử dụng cũng được coi là một trong số các khối liệu lớn nhất hiện nay. Khối liệu này được xây dựng vào những năm 90 thế kỉ XX trên cơ sở sơ đồ hình thái học, bao gồm khoảng 90% đơn vị từ và cụm từ sử dụng ở dạng viết, 10% số đơn vị còn lại ở dạng nói.

Ngày nay, việc dạy và học tiếng Anh đạt hiệu quả, trong đó một phần đáng kể là có sự trợ giúp của công nghệ máy tính với việc sử dụng khối liệu. Có thể kể đến các khối liệu quan trọng như Bank of English 1997 với 320 triệu đơn vị từ và cụm từ sử dụng hoặc ICLE 1997 với 200 triệu đơn vị từ và cụm từ sử dụng dưới dạng viết dành cho người nước ngoài[4]. Ngoài các khối liệu kể trên, còn tồn tại hàng loạt khối liệu tiếng Anh khác được sử dụng cho việc nghiên cứu bằng tiếng Anh, cho việc dạy và học tiếng Anh như một ngoại ngữ.[5]

 Đối với các nước châu Âu khác, trong số các khối liệu, cần kể đến khối liệu tiếng Đức. Đây là tập hợp lớn nhất các văn bản và ngôn bản bằng tiếng Đức, bao gồm khoảng 2 tỉ đơn vị từ và cụm từ sử dụng. Khối liệu này chứa sơ đồ hình thái – cú pháp học dựa trên cơ sở SGML (Standard Generalized Markup Language). Hệ thống tự động hóa COSMAS II của khối liệu tiếng Đức cho phép người sử dụng dễ dàng tìm kiếm thống tin chứa trong khối liệu này theo các dấu hiệu tình thái học của dạng từ. Một hệ thống khác cũng cần kể đến là khối liệu tiếng Tiệp với 100 triệu đơn vị từ và cụm từ sử dụng. Ở đây, chương trình ngôn ngữ hỗ trợ cho khối liệu là chương trình tạo lập danh mục từ và cụm từ trong khối liệu cho phép cập nhật toàn bộ các ví dụ sử dụng với đầy đủ trích dẫn, tần số xuất hiện, phân tích ngữ pháp từ hoặc cụm từ sử dụng trong khối liệu.[6]

Đối với các nước châu Á, Trung Quốc và Nhật Bản là những nước có các khối liệu bản ngữ lớn nhất. Khối liệu tiếng Trung chứa khoảng 1 tỷ đơn vị từ và cụm từ, đang được sử dụng rất rộng rãi và hữu hiệu, phục vụ đắc lực cho nền kinh tế phát triển của Trung Quốc.[7]      

Tại Liên bang Nga, ngôn ngữ học khối liệu được bắt đầu nghiên cứu mới chỉ trong vòng hơn thập kỉ trở lại đây, nhưng với tốc độ rất nhanh về thực hành, chuẩn xác về lí thuyết. Hiện nay, Ngôn ngữ học khối liệu đang được giảng dạy tại các trường đại học lớn và nghiên cứu tích cực tại các viện nghiên cứu ngôn ngữ của Liên bang Nga nhằm phục vụ cho một nền kinh tế tăng trưởng. Trong vòng 5-6 năm trở lại đây, Ngôn ngữ học khối liệu ở LB Nga được đặc biệt quan tâm nghiên cứu và phát triển. Các khối liệu tại LB Nga được sử dụng rộng rãi trong các lĩnh vực của ngôn ngữ học ứng dụng, từ vựng học, dạy và học ngoại ngữ, ngôn ngữ học máy tính và các lĩnh vực khoa học xã hội khác. Khối liệu tiếng Nga đến nay đã tăng đáng kể lượng các đơn vị từ và cụm từ sử dụng, mở rộng phạm vi sử dụng ngôn ngữ trong nhiều lĩnh vực khoa học khác nhau.

 Ở Việt Nam, việc xây dựng khối liệu tiếng Việt trong quá trình hội nhập quốc tế của Việt Nam là vấn đề cần thiết và cấp bách.

         Nhờ sự phát triển của khối liệu văn bản tương đương giữa các cặp ngôn ngữ, cuối thế kỉ XX đã xuất hiện hệ thống dịch theo phương pháp thống kê tự động đầu tiên, «…mặc dù vẫn còn những hạn chế, phương pháp thống kê đối với việc dịch tự động đã làm giảm nhẹ đáng kể so với việc xây dựng các hệ thống theo phương pháp truyền thống. Thành tựu không thể phủ nhận của các hệ thống này là loại bỏ việc xây dựng các từ điển điện tử theo phương pháp thủ công …»[8].

         Cho đến nay, Ngôn ngữ học khối liệu ngày càng có xu hướng phát triển mạnh mẽ cùng với sự phát triển của công nghệ thông tin. Là một bộ phận của ngôn ngữ học ứng dụng, Ngôn ngữ học khối liệu hiện nay đang được nâng cao hiệu quả về thực hành và hoàn thiện về lí thuyết. Ngôn ngữ học khối liệu đóng vai trò ngày càng quan trọng trong nền kinh tế toàn cầu khi các lĩnh vực khoa học và công nghệ phát triển mạnh. Có thể nói rằng khối liệu đang được sử dụng rộng rãi bởi các nhà ngôn ngữ ứng dụng, các chuyên gia ngôn ngữ – lí luận, ngôn ngữ máy tính, các giảng viên và các chuyên gia thuộc nhiều lĩnh vực khoa học và đời sống khác nhau.   

Tài liệu tham khảo

1. Brown, R. (1973) A First Language: The Early Stages, Cambridge, MA: Harvard University Press.

2. Chomsky, N. (1968) Language and Mind, Harcourt Brace, New York.

3. Mcenery, T. and Wilson, A. (1996) Corpus Linguistics. Edinburgh University Press.

4. Barnbrook, G. (1996). Language and Computers: a practical introduction to the computer analysis of language. Edinburgh University Press.

5. Woods, A., Fletcher, P., and Hughes, A. (1986). Statistics in Language Studies. Cambridge. Cambridge University Press.

6. McEnery T., Wilson A. (1999). Corpus Linguistics. – Edinburgh: Edinburgh University Press.

7. Марчук Ю.Н. (2002). Корпус текстов и сверхбольшие базы лингвистических данных // Сборник: Труды международной конференции «Корпусная лингвистика – 2002». – Издательство Санкт-Петербургского университета.

8. Милчонока Э. (2002). Обзор ресурсов латышского языка в Институте математики и информатики Латвийского  университета // Сборник: Труды международной конференции «Корпусная лингвистика – 2002». – Издательство Санкт-Петербургского университета.

9. Рыков В.В. (2001). Корпус текстов как отражение состояния русского языка // Труды Международного конгресса “Русский язык: исторические судьбы и современность” . – Москва: МГУ.

10. Лингвистический энциклопедический словарь. Главн. ред. В.Н. Ярцева. М., 1990. – 685 с. 

11. Розенталь М.А., Теленкова М.А. (1985). Словарь – справочник лингвистических терминов. М., “Просвещение”. – 399 с.

12. Дао Хонг Тху (2006). Корпус параллельных текстов в аспекте корпусной лингвистики. // Проблемы современной филологии и лингводидактики, сб. научных трудов, СПб, изд.РГПУ им. А.И.Герцена, с.23-28.

* Dr. Đào Hồng Thu (2007). Tạp chí Ngôn ngữ và Đời sống. Số 7 (141), tr.9-13.

 


[1] Thuật ngữ được sử dụng lần đầu tiên trong khối liệu Brown năm 1961 với gần 1 triệu từ và cụm từ Anh – Mĩ.

[2] Милчонока Э. Обзор ресурсов латышского языка в Институте математики и информатики Латвийского  университета// Сборник: Труды международной конференции «Корпусная лингвистика – 2002». – Издательство Санкт-Петербургского университета, 2002. – С.97.

[3] Лингвистический энциклопедический словарь. Главн. ред. В.Н. Ярцева. М., 1990. – 685 с.

[4] Рыков В.В. Корпус текстов как отражение состояния русского языка // Труды Международного конгресса “Русский язык: исторические судьбы и современность” . – Москва: МГУ, 2001 г.

[5] http://www.viniti.ru

[6] McEnery T., Wilson A. Corpus Linguistics. – Edinburgh: Edinburgh University Press, 1999.

[7] http://ru.wikipedia.org

[8] Марчук Ю.Н. Корпус текстов и сверхбольшие базы лингвистических данных // Сборник: Труды международной конференции «Корпусная лингвистика –  2002». – Издательство Санкт-Петербургского университета, 2002. – С.96.

Posted in For the References, Overview of Corpus Linguistics, PUBLICATIONS | Leave a Comment »