Logo báo điện tử Đảng Cộng sản Việt Nam

Ứng dụng trí tuệ nhân tạo nâng cao hiệu quả tìm kiếm thông tin trong mạng diện rộng của Đảng và trên mạng Internet

Thứ Ba, 30/07/2024 15:50 (GMT+0)
zalo-icon
viber-icon

(ĐCSVN) - Ứng dụng trí tuệ nhân tạo để nâng cao hiệu quả tìm kiếm thông tin trong mạng diện rộng của Đảng và trên mạng Internet đã khảo sát, phân tích hiện trạng sử dụng 2 ứng dụng tìm kiếm của các cơ quan đảng và đề xuất giải pháp, góp phần tăng cường độ chính xác của kết quả gợi ý từ khóa và ứng dụng trí tuệ nhân tạo trong giải quyết các bài toán xử lý dữ liệu lớn, thông tin văn bản phục vụ công tác tham mưu, tổng hợp của các cơ quan đảng trong thời gian tới.

Hình ảnh minh họa .

Các cơ quan đảng đã xây dựng và đưa vào sử dụng một số hệ thống thông tin, cơ sở dữ liệu dùng chung trong mạng thông tin diện rộng của Đảng với nhiều thông tin, dữ liệu khác nhau phục vụ công tác quản lý, điều hành, chuyên môn, nghiệp vụ. Trên mạng internet thông tin, dữ liệu rất nhiều và đa dạng. Ứng dụng tìm kiếm thông tin trong mạng thông tin diện rộng của Đảng, cung cấp chức năng tìm kiếm thông tin từ các trang/cổng thông tin điện tử và các hệ thống thông tin, phần mềm ứng dụng và các tệp dữ liệu chia sẻ trên mạng thông tin diện rộng của Đảng và ứng dụng thu thập, tổng hợp thông tin trên internet có chức năng tìm kiếm, thu thập, tổng hợp thông tin trên mạng internet. Với cả 2 ứng dụng, khi tìm kiếm thông tin người sử dụng phải biết và gõ chính xác cụm từ khóa mình cần tìm vào ô tìm kiếm. Vì vậy sẽ mất thời gian đối với người sử dụng gõ chậm, khó khăn với người sử dụng chưa xác định chính xác cụm từ khóa cần tìm. Gần đây, dựa trên những thành quá mới của lĩnh vực học máy (một lĩnh vực của trí tuệ nhân tạo) đặc biệt là các mô hình học sâu, nhiều tính năng tiên tiến đã được tích hợp vào máy tìm kiếm, đem lại nhiều lợi ích cho người dùng. Việc nghiên cứu, ứng dụng trí tuệ nhân tạo để tự động hoàn thành/gợi ý từ khóa liên quan mong tìm kiếm thông tin trên mạng diện rộng của Đảng và trên mạng internet nhằm nâng cao chất lượng, hiệu quả tìm kiếm, khai thác thông tin trong bối cảnh cách mạng công nghiệp lần thứ tư và yêu cầu chuyển đổi số ở các cơ quan Đảng là cần thiết, có ý nghĩa thực tiễn cao trong công tác.

1. Về trí tuệ nhận tạo và tìm kiếm thông tin

Có nhiều định nghĩa về trí tuệ nhân tạo (AI), trong đó Google định nghĩa AI là: "Lý thuyết và phát triển của các hệ thống máy tính có thể thực hiện các nhiệm vụ thường đòi hỏi trí thông minh của con người, chẳng hạn như nhận thức trực quan, nhận dạng giọng nói ra quyết định và dịch giữa các ngôn ngữ". Nói cách khác, AI là khả năng của máy móc sử dụng các thuật toán để học hỏi từ dữ liệu và sử dụng những gì đã được học để đưa ra quyết định như con người.

Trên môi trường mạng máy tính có rất nhiều thông tin, việc tìm kiếm thông tin đáp ứng yêu cầu của người sử dụng là rất cần thiết, quan trọng. Công cụ tìm kiếm thông tin là một phần mềm với chức năng chính là tìm ra thông tin phù hợp yêu cầu người dùng dựa trên các từ khóa tìm kiếm. Mỗi hệ thống tìm kiếm có ba thành phần chính: Thnhất là bộ thu thập thông tin, bộ này có chức năng tìm, tiếp nhận và xây dựng các cơ sở dữ liệu chứa dữ liệu mang tính chất kho dữ liệu phục vụ cho việc tìm kiếm; Thứ hai là bộ lập chỉ mục cơ sở dữ liệu đối với dữ liệu; Thứ ba là bộ tìm kiếm dựa trên cơ sở dữ liệu và chỉ mục nói trên.

2. ng dụng trí tuệ nhân tạo trong bài toán gợi ý từ khóa, nâng cao chất lượng tìm kiếm

ng dụng trí tuệ nhân tạo trong bài toán gợi ý từ khóa:

Tự động hoàn thành câu truy vấn là một đặc trưng riêng biệt của các hệ thống tìm kiếm dựa trên văn bản, cho phép gợi ý các cách hoàn thiện câu truy vấn khi người dùng đăng nhập dữ liệu. Tính hiệu quả của hệ thống này được đánh giá dựa trên khả năng phản hồi tức thời trong quá trình sử dụng các hệ thống phần mềm khi người dùng nhập các thông tin tìm kiếm dạng text, cũng như khả năng gợi ý các câu tìm kiếm dựa trên xâu ký tự mà người dùng nhập vào. Một số mô hình học sâu ứng dụng trong tìm kiếm dự báo bao gồm mạng nơ-ron hồi quy RNN, mạng bộ nhớ dài ngắn LSTM, mô hình ngữ nghĩa ẩn tích chập CLSM, mô hình Fasttext. Fasttext được chúng tôi lựa chọn vì phù hợp với mục tiêu của bài toán là gợi ý các từ khóa từ xâu ký tự người dùng nhập vào.

Từ bộ ngữ liệu được thu thập, căn cứ xâu ký tự nhập vào, hệ thống lấy danh sách gợi ý dựa trên ngữ nghĩa rồi thực hiện xếp hạng dựa trên "khoảng cách" của các câu trong danh sách gợi ý để cho ra danh sách cuối cùng hiển thị cho người sử dụng. Danh sách này cần đảm bảo các yếu tố: có tiền tố tương đồng và có ý nghĩa tương tự hoặc liên quan đến xâu tìm kiếm của người sử dụng.

Đ xuất mô hình ứng dụng:

Thông qua tìm hiểu các nghiên cứu về giải quyết bài toán hoàn thành từ câu, đồng thời căn cứ vào hiện trạng 2 ứng dụng tìm kiếm đang được sử dụng tại các cơ quan đảng để giải quyết bài toán cần thực hiện các công việc như hình bên.

 Bài toán cần giải quyết

 Bản chất của bài toán gợi ý từ khóa có ba vấn đề chính cần giải quyết: Thứ nhất là xây dựng bộ ngữ liệu tiếng Việt; Thứ hai, là xây dựng mô đun lấy danh sách gợi ý; Thứ ba là áp dụng thuật toán ranking sắp xếp thứ tự các kết quả để hiển thị cho người dùng.

Để có thể lấy được danh sách gợi ý từ độ ngữ liệu đã thu thập, chúng tôi áp dụng bộ thư viện fastText để biểu diễn text (văn bản) trong ngữ liệu các câu tiếng Việt thành dạng vector. Sau đó, thực hiện huấn luyện mạng nơ ron dựa trên bộ thư viện fastText để xây dựng mô hình biểu diễn ngôn ngữ với bộ ngữ liệu câu đã thu thập được. Bộ thư viện fastText cũng cho phép tính toán mức độ tương đồng của câu tìm kiếm nhập vào dựa trên tính toán độ tương tự bằng cách tính hàm cosine. Các kết quả mà fastText gợi ý được sắp xếp lại dựa trên thuật toán đo khoảng cách Damerau Levenshtein, dựa trên độ tương tự về các từ giữa hai câu với nhau để đưa ra danh sách gợi ý cho xâu ký tự tìm kiếm của người sử dụng.

3. Xây dựng mô đun, thử nghiệm mô đun ứng đụng trí tuệ nhân tạo

Xây dựng mô đun: Yêu cầu mô đun ứng dụng trí tuệ nhân tạo đáp ứng khả năng gợi ý, hoàn thành từ khóa là Người dùng có thể nhận được danh sách gợi ý thông qua kết nối đến dịch vụ web (Web api); Xâu từ khóa nhập vào được tiền xử lý trước khi đưa vào hệ thống gợi ý, Danh sách từ khóa gợi ý được sắp xếp dựa trên ngữ nghĩa; Danh sách từ khóa gợi ý cần được tham số hóa, cho phép xác định số kết quả gợi ý trả về; Thời gian trả kết quả gợi ý phải nhanh và chấp nhận được.

Thử nghiệm mô đun: Sau khi thiết kế, xây dựng mô đun, chuẩn hóa dữ liệu, huấn luyện tiến hành tích hợp thử nghiệm mo đun vào Phần mềm tìm kiếm trong mạng thông tin diện rộng của Đảng và Phần mềm thu thập, tổng hợp thông tin trên Intemet tìm kiếm. Kết quả thử nghiệm các mô đun ứng dụng trí tuệ nhân tạo 2 phần mềm tìm kiếm cho thấy thời gian trả về kết quả dưới 3 giây cho một xâu đầu vào kết quả gợi ý khá chính xác, hỗ trợ tốt cho người dùng, nhất là trong tình huống người dùng chưa xác định được rõ từ khóa cần tìm người dùng có thể chọn từ khóa gợi ý nào cho là phù hợp với mong muốn tìm kiếm rất nhanh chóng, không phải gõ lại giúp tăng tốc độ tìm kiếm đối với người dùng gõ máy chậm, kết quả tìm kiếm được sát với yêu cầu tìm kiếm và nhanh hơn, giúp nâng cao hiệu quả chức năng tìm kiếm trong 2 phần mềm.

Ứng dụng trí tuệ nhân tạo để nâng cao hiệu quả ứng dụng tìm kiếm thông tin trong mạng diện rộng của Đảng và trên mạng internet đã khảo sát, phân tích hiện trạng sử dụng 2 ứng dụng tìm kiếm của các cơ quan đảng và đề xuất giải pháp, mô hình và xây dựng các mô đun phần mềm ứng dụng trí tuệ nhân tạo; triển khai thử nghiệm đánh giá kết quả tích hợp mô đun vào 2 ứng dụng tìm kiếm đang sử dụng ở các cơ quan đảng. Trên cơ sở kết quả thừ nghiệm, kiến nghị triển khai ứng dụng mô đun gợi ý, hoàn thiện từ khóa vào 2 ứng dụng tìm kiếm đang sử dụng ở các cơ quan đảng để hỗ trợ nâng cao hiệu quả chức năng tìm kiếm thông tin với những điều kiện và quy trình cách thức triển khai cụ thể. Từ đây góp phần tăng cường độ chính xác của kết quả gợi ý từ khóa và ứng dụng trí tuệ nhân tạo trong giải quyết các bài toán xử lý dữ liệu lớn, thông tin văn bản phục vụ công tác tham mưu, tổng hợp của các cơ quan đảng trong thời gian tới./.

TS. Đào Văn Thành, Văn phòng Trung ương Đảng

có thể bạn quan tâm

Ý KIẾN BÌNH LUẬN