Đây là nguồn cơ sở dữ liệu do một nhóm các nhà khoa học Việt Nam trong lĩnh vực Công nghệ thông tin và Ngôn ngữ học nghiên cứu xây dựng theo mô hình Mạng từ tiếng Anh (WordNet).
http://wordnet.vn là mạng từ tiếng Việt đầu tiên tại Việt Nam
Mạng từ tiếng Việt dự định gồm 30.000 loạt từ đồng nghĩa, với 50.000 đơn vị từ vựng, trong đó có 30.000 từ vựng là tiếng Việt thông dụng. Với số lượng dữ liệu như vậy chúng có thể giúp các nhà Từ điển học Việt Nam dễ dàng xây dựng bộ cơ sở dữ liệu từ điển đối chiếu theo cách truyền thống (các mục từ được sắp xếp theo thứ tự alphabet) hay theo kiểu mới, kiểu mạng lưới.
Khi Mạng từ tiếng Việt hoàn thành, nó có thể kết nối với các mạng từ khác trên thế giới để hình thành một từ điển song ngữ hay đa ngữ. Hiện nay, theo Hiệp hội mạng từ toàn cầu, trên thế giới hiện có hơn 70 mạng từ đơn ngữ và đa ngữ như: Mạng từ tiếng Nga (RussNet), Mạng từ tiếng Trung (Chinese WordNet), Mạng từ tiếng Thái (Thai WordNet), Mạng từ tiếng Hindi (Hindi WordNet),...
Từ đây, có thể tạo thành mạng từ song ngữ như Mạng từ Việt-Thái, Mạng từ Việt-Nhật, Mạng từ Việt-Hàn, Mạng từ Việt-Pháp, Mạng từ Việt-Anh,… hay các mạng từ đa ngữ như Mạng từ Việt-Thái-Nhật-Hàn, Mạng từ Việt-Thái-Nhật-Hàn-Indonesia-Malaysia,…
Với hệ thống mạng từ được xây dựng tương đối đồ sộ như vậy trên thế giới, việc biên soạn các từ điển đối chiếu Việt-tiếng nước ngoài cũng như tiếng nước ngoài-Việt sẽ thuận lợi hơn rất nhiều. Thêm vào đó, nó cũng cho phép xây dựng những bộ từ điển đối chiếu giữa rất nhiều ngôn ngữ với nhau.
Mạng từ tiếng Việt là một trong những sản phẩm chính của đề tài “Nghiên cứu, xây dựng và phát triển một số tài nguyên và công cụ thiết yếu cho xử lí văn bản tiếng Việt” của Bộ Khoa học và Công nghệ. Đơn vị chủ trì thực hiện đề tài này là Công ty Cổ phần Dịch vụ Công nghệ Thông tin Naiscorp.
Bình luận (0)