CMC ATI tự hào đưa AI ngôn ngữ Việt ra “sân chơi” toàn cầu

CMC ATI tự hào đưa AI ngôn ngữ Việt ra “sân chơi” toàn cầu

 Viện Ứng dụng Công nghệ CMC (CMC ATI) đã công bố mô hình hiểu tài liệu thị giác CATI-VLM, được phát triển từ kho dữ liệu lớn 5TB. Mô hình này đã xuất sắc lọt Top 12 thế giới.

Trong bối cảnh chuyển đổi số và chuyển đổi AI đang diễn ra mạnh mẽ tại Việt Nam, công nghệ nhận dạng ký tự quang học (OCR) ngày càng đóng vai trò thiết yếu trong việc số hóa tài liệu, tự động hóa quy trình nghiệp vụ, tiết kiệm chi phí và nâng cao hiệu quả quản trị.

Tuy nhiên, với đặc thù tiếng Việt có dấu và chữ viết tay, bài toán nhận dạng không chỉ dừng ở việc “đọc chữ”, mà còn đòi hỏi khả năng hiểu ngữ cảnh sâu rộng của ngôn ngữ và bố cục tài liệu.

Mới đây, Viện Ứng dụng Công nghệ CMC (CMC ATI) đã công bố mô hình hiểu tài liệu thị giác CATI-VLM, được phát triển từ kho dữ liệu lớn 5TB. Mô hình này đã xuất sắc lọt Top 12 thế giới và giữ vị trí số 1 tại Việt Nam trong bảng xếp hạng hạng mục Document Visual Question Answering (DocVQA) do Robust Reading Competition (RRC) công bố tháng 6/2025.

Bảng xếp hạng của RRC trong hạng mục DocVQA 6/2025
Bảng xếp hạng của RRC trong hạng mục DocVQA 6/2025

RRC là cuộc thi khoa học uy tín toàn cầu trong lĩnh vực thị giác máy tính và nhận dạng văn bản, do Trung tâm Thị giác Máy tính (CVC) thuộc Đại học Autònoma de Barcelona (UAB), Tây Ban Nha tổ chức từ năm 2011. Cuộc thi luôn đồng hành cùng Hội nghị Quốc tế ICDAR về phân tích và nhận dạng văn bản – một trong những diễn đàn hàng đầu thế giới, thu hút sự tham gia của các viện nghiên cứu, trường đại học và tập đoàn công nghệ lớn như Đại học Tsinghua, Hyundai Motor Group, Tencent…

CATI-VLM không chỉ trích xuất ký tự như các hệ thống OCR truyền thống, mà còn hiểu đa lớp thông tin từ nội dung văn bản đến yếu tố phi văn bản như checkbox, biểu đồ, chữ ký, công thức; nhận diện bố cục trang, form mẫu và phong cách trình bày.

Mô hình có thể trả lời trực tiếp các câu hỏi được đặt ra trên ảnh chụp tài liệu, tương tự các hệ thống AI tạo sinh như ChatGPT, nhưng không cần học trước theo từng mẫu biểu cụ thể.

Ví dụ mẫu đơn tuyển sinh Đại học KTQS
Ví dụ mẫu đơn tuyển sinh Đại học KTQS
Văn bản đã được nhận dạng từ chữ viết tay
Văn bản đã được nhận dạng từ chữ viết tay

Đáng chú ý, dù chỉ sử dụng 3 tỷ tham số, CATI-VLM đạt độ chính xác cao nhất ở 4/7 bộ dữ liệu trong bảng xếp hạng RRC, vượt nhiều mô hình đến từ các tập đoàn công nghệ lớn như Deepseek (27 tỷ tham số), GPT-4 Vision Turbo kết hợp Amazon Textract OCR (Top 34) hay Baidu (Top 22). Thành tích này cho thấy năng lực tối ưu hóa mô hình hiệu quả, cân đối giữa hiệu suất tính toán và độ chính xác, phù hợp với hạ tầng tại Việt Nam.

TS. Đặng Minh Tuấn, Viện trưởng CMC ATI chia sẻ: “Chúng tôi rất vui mừng khi năng lực nghiên cứu của đội ngũ CMC được khẳng định qua một sân chơi uy tín toàn cầu như RRC. Quan trọng hơn, đây là minh chứng rõ ràng cho khả năng làm chủ công nghệ để giải quyết các bài toán đặc thù của tiếng Việt và các lĩnh vực chuyên ngành tại Việt Nam.”

Theo ông Nguyễn Trung Chính, Chủ tịch HĐQT kiêm Chủ tịch Điều hành Tập đoàn Công nghệ CMC, thành tích này là kết quả của hơn 10 năm kiên định đầu tư nghiên cứu và phát triển, thể hiện rõ chiến lược làm chủ Công nghệ Việt, gắn với định hướng chuyển đổi AI và vươn ra toàn cầu. “Chúng tôi tin trí tuệ Việt Nam hoàn toàn đủ năng lực sánh vai cùng các Big Tech thế giới, tạo vị thế xứng đáng trên bản đồ công nghệ toàn cầu”, ông Nguyễn Trung Chính nhấn mạnh.

CATI-VLM sẽ được tích hợp trong các sản phẩm thuộc hệ sinh thái C.OpenAI của CMC như: trợ lý ảo CLS rà soát văn bản pháp luật, nền tảng chuyển đổi số tài liệu SmartDoc, hệ quản trị tri thức CMC KMS, hệ thống báo cáo tự động và các ứng dụng Agentic Documents thế hệ mới.

Đăng ký tham dự sự kiện

CMC ATI tự hào đưa AI ngôn ngữ Việt ra “sân chơi” toàn cầu

Thông tin người đăng ký