Thứ ba Ngày 14 Tháng 05 Năm 2024, 12:29:39

Viettel sẽ phát triển mô hình ngôn ngữ lớn tiếng Việt và trợ lý ảo cho cán bộ, công chức

Ngày đăng: 05/08/2023

QK2 – Tập đoàn Công nghiệp – Viễn thông Quân đội (Viettel) cho biết vừa được Bộ Thông tin và Truyền thông phê duyệt là đơn vị nghiên cứu, thử nghiệm phát triển mô hình ngôn ngữ lớn tiếng Việt và trợ lý ảo cho cán bộ, công chức (CB,CC). Mục tiêu chung của sảm phẩm nghiên cứu, thử nghiệm hướng đến xây dựng, hình thành, sử dụng bộ dữ liệu chung bằng ngôn ngữ tiếng Việt có chất lượng tốt, độ phủ rộng để phục vụ huấn luyện khả năng giao tiếp nhuần nhuyễn cho mô hình ngôn ngữ lớn tiếng Việt.

Nền tảng trợ lý ảo tiếng Việt – Viettel Cyberbot do Trung tâm Không gian mạng Viettel phát triển, đưa vào sử dụng trong những năm qua đã góp phần tích cực hỗ trợ các doanh nghiệp xây dựng hệ thống tổng đài tự động chăm sóc khách hàng thông qua tương tác bằng cuộc gọi và tin nhắn.

Sản phẩm khi tạo ra, sử dụng như nền tảng dịch vụ mô hình ngôn ngữ lớn tiếng Việt với các thành phần cơ bản bao gồm: Công cụ phục vụ thu thập, xử lý, dán nhãn dữ liệu và các giao diện lập trình ứng dụng (API) phục vụ phát triển trợ lý ảo. Đặc biệt, sản phẩm trở thành công cụ trợ lý ảo phiên bản cơ bản dành cho CB,CC Nhà nước và ứng dụng Trợ lý ảo phiên bản dành cho Bộ Thông tin và Truyền thông.

Theo đại diện Viettel, ngoài các tiêu chí về giá trị, tính năng cơ bản, sản phẩm nghiên cứu thử nghiệm cần có mô hình xác suất có khả năng hiểu và sinh ngôn ngữ tự nhiên (LLM) để hỗ trợ tiếng Việt được huấn luyện hỗ trợ độ dài ngữ cảnh (context length) 4096 token; dịch vụ LLM hỗ trợ tiếng Việt truy cập thông qua API, bao gồm mô hình và hạ tầng tính toán, có thể truy cập từ các tổ chức và doanh nghiệp trong nước.

Đối với dịch vụ LLM cần đảm bảo cung cấp đầy đủ các API phổ biến gồm API embedding: Dùng để mã hóa văn bản tiếng Việt thành vector; API text completion dùng để hoàn thiện văn bản từ lời dẫn; API fine-tune dùng để DNN tự tinh chỉnh model mới trên model gốc với dữ liệu riêng của doanh nghiệp.

Riêng đối với Nền tảng Trợ lý ảo cho CB,CC cần đáp ứng các yêu cầu cơ bản như: Cho phép CB,CC tự bổ sung dữ liệu riêng, cá nhân hoá trên trợ lý ảo thông qua nền tảng mà không cần tới nhân sự kĩ thuật; có kết nối dữ liệu đào tạo tới các cổng dữ liệu lớn của Chính phủ, cổng dữ liệu văn bản hành chính, cổng dữ liệu mua sắm công, cổng dữ liệu công dân…; có kết nối với dữ liệu đào tạo với máy tìm kiếm của doanh nghiệp trong nước để cung cấp thông tin từ Internet (có qua kiểm duyệt), có thể sử dụng trên website và mobile.  Trợ lý lý hỗ trợ giao diện điều khiển bằng giọng nói tiếng Việt, có thể tích hợp dễ dàng vào website, Zalo OA… và các kênh ứng dụng OTT phổ biến khác tại Việt Nam.

Đối với bộ công cụ chuẩn bị dữ liệu huấn luyện Trợ lý ảo cần đảm bảo có thể nhập dữ liệu văn bản để huấn luyện; có thể bóc nội dung tiếng Việt từ file hình ảnh/file scan có chứa tiếng Việt; tự động bóc băng nội dung tiếng Việt từ file ghi âm cuộc họp, file video báo chí, truyền thông…để đưa vào huấn luyện; tích hợp tự động để lấy dữ liệu từ các bộ công cụ làm việc phổ biến tại Việt Nam…

NGỌC LINH

Trả lời

Thư điện tử của bạn sẽ không được hiển thị công khai.