Tháng 6/2025, cộng đồng trí tuệ nhân tạo (AI) thế giới chứng kiến sự bứt phá ngoạn mục từ Việt Nam khi Viện Ứng dụng Công nghệ CMC (CMC ATI) công bố mô hình hiểu tài liệu thị giác CATI-VLM, không chỉ lọt Top 12 toàn cầu mà còn giữ vị trí số 1 Việt Nam trong bảng xếp hạng Document Visual Question Answering (DocVQA) do Robust Reading Competition (RRC) công bố.
Đây là lần đầu tiên một mô hình AI “hiểu tài liệu” của Việt Nam đạt thứ hạng cao như vậy trên đấu trường học thuật quốc tế, sánh vai cùng các đội ngũ đến từ các đại học và tập đoàn công nghệ lớn như Google, Microsoft, Alibaba, hoặc Đại học ETH Zurich.
Chúng tôi đã làm điều đó như thế nào?
Sản phẩm CATI-VLM (CMC ATI – Visual Language Model) là kết quả của một quá trình nghiên cứu nghiêm túc, bền bỉ và đầy tâm huyết của toàn bộ đội ngũ Computer Vision thuộc Lab AI/Bigdata trong 3 tháng bền bì kể từ tháng 3/2025. Dự án đã được triển khai một cách nghiêm túc: Từ bước lên ý tưởng, xác định hướng đi chiến lược, đến việc xây dựng pipeline xử lý dữ liệu và huấn luyện đánh giá mô hình.
CATI-VLM: Không chỉ là sản phẩm, mà là một kế hoạch được ấp ủ và triển khai bài bản
Tầm nhìn về mô hình xử lý ảnh đa năng – tiền thân của VLM – đã được anh Nguyễn Tiến Đồng và đội ngũ Lab AI/BigData ấp ủ từ rất sớm. Chính ý tưởng này từng giành Giải Sáng kiến Xuất sắc trong cuộc thi AI-X 2024:
“CMC ATI – CMC Vision Foundation Model – Mô hình xử lý ảnh đa năng của CMC”
– đây chính là hạt nhân đầu tiên cho chiến lược phát triển sản phẩm VLM ngày nay.

Ba tháng phát triển tăng tốc chỉ là phần “bề nổi” – phía sau đó là một nền móng vững chắc đã được xây dựng từ trước: đội ngũ AI/BigData của CMC ATI đã tích lũy được dữ liệu chất lượng cao và kinh nghiệm thực chiến (know-how) qua nhiều năm làm việc với các khách hàng của sản phẩm OCR.
Ngay từ đầu, nhóm đã xác lập benchmark, tiêu chí đánh giá và chuẩn mực quốc tế, định hướng mô hình theo mục tiêu: không chỉ hoạt động hiệu quả trong môi trường thực tế, mà còn đủ sức cạnh tranh trên sân chơi AI toàn cầu.
Trao đổi với Anh Nguyễn Tiến Đồng, phó lab AI/BigData tại CMC ATI – người quản lý dự án, phụ trách kỹ thuật chính của dự án CATI-VLM chia sẻ về quá trình đầu tư nguồn lực, thời gian công sức để tạo nên sản phẩm đột phá này.
“Chúng tôi không đơn thuần tạo ra một công nghệ, mà kiến tạo nên một năng lực lõi – đủ sức thay đổi tận gốc cách con người tương tác với tài liệu. Chúng tôi hướng đến một hệ thống có thể đọc, hiểu và tri thức hoá thông tin như một “cộng sự” thực thụ. Trên hết, đó sẽ là cầu nối thông minh, tinh giản và mạnh mẽ giữa con người và máy móc.” – Anh Nguyễn Tiến Đồng chia sẻ về quá trình làm nên sản phẩm CATI-VLM

Từ ý tưởng nhỏ đến Top 12 thế giới, Top 1 Việt Nam: 3 tháng bền bỉ
Dự án bắt đầu từ 3/2025, khi nhóm nhận thấy bài toán “hiểu tài liệu” (Document Understanding) là mắt xích còn thiếu trong chuỗi giá trị AI xử lý văn bản. Trong vòng 03 tháng, nhóm đã:
- Thu thập và xử lý hơn 5TB dữ liệu tài liệu tiếng Việt và đa ngôn ngữ, bao gồm hóa đơn, biểu mẫu, sách giáo trình, hợp đồng, báo cáo kỹ thuật…
- Huấn luyện mô hình thị giác – ngôn ngữ (Vision-Language Model) trên hạ tầng GPU của CMC Cloud
- Phát triển thêm module tối ưu hóa đặc thù cho tiếng Việt (xử lý font không chuẩn, dấu thanh, cột bảng, câu hỏi tự nhiên…)
- Kiểm thử trên tập dữ liệu chuẩn quốc tế DocVQA, nơi mô hình phải trả lời chính xác câu hỏi ngữ nghĩa liên quan đến hình ảnh tài liệu, không chỉ đọc text mà còn “hiểu”.
Một tập thể 10 người, mỗi người như một node quan trọng
Dưới sự dẫn dắt của anh Đồng, anh Lâm nhóm gồm hơn 10 kỹ sư, nhà nghiên cứu và sinh viên thực tập đến từ nhiều mảng: thị giác máy tính (CV), xử lý ngôn ngữ (NLP), hệ thống học sâu (Deep Learning Infra), và kiểm thử.
“Là người trực tiếp dẫn dắt nhóm phát triển CATI-VLM, tôi cảm thấy rất tự hào khi được đồng hành cùng một tập thể trẻ, giỏi chuyên môn và luôn tràn đầy nhiệt huyết. Mỗi bước tiến của dự án đều là kết quả của tinh thần làm việc nghiêm túc, sáng tạo và gắn kết trong team.” – Anh Nguyễn Vũ Sơn Lâm – Trưởng nhóm CV Lab AI/BigData chia sẻ

Ngoài ra, thứ hạng trên benchmark RRC chỉ là 1 trong nhiều mục tiêu mà nhóm muốn chinh phục, đây sẽ chỉ là kết quả bước đầu để nhóm có thêm động lực tiếp tục phát triển và đạt tới những thứ hạng và mục tiêu cao hơn.
Tôi cũng rất biết ơn Ban Lãnh đạo Viện và Tập đoàn CMC đã luôn tin tưởng, định hướng và tạo điều kiện để chúng tôi có thể phát huy tối đa năng lực. Sự hỗ trợ và tầm nhìn chiến lược từ mọi người chính là yếu tố giúp team giữ vững niềm tin và tự tin theo đuổi những hướng đi mới đầy thử thách.
Thách thức lớn nhất:
Ngay từ giai đoạn đầu, nhóm đã xác định rõ mục tiêu phát triển một mô hình có khả năng hiểu và xử lý thông tin thị giác kết hợp ngôn ngữ — đặc biệt tập trung vào ngữ cảnh và cấu trúc tài liệu tiếng Việt, vốn nổi tiếng với độ đa dạng và phức tạp. Một trong những thách thức lớn nhất mà nhóm đối mặt là xử lý và chuẩn hóa dữ liệu đầu vào, bao gồm tài liệu scan, ảnh chụp tay, văn bản in từ nhiều nguồn khác nhau, với nhiều định dạng bảng biểu và cách thể hiện thông tin không đồng nhất. Không chỉ dừng lại ở đó, chiến lược huấn luyện mô hình cũng được thiết kế kỹ lưỡng nhằm đảm bảo khả năng học sâu cả về mặt hình ảnh lẫn ngữ nghĩa — điều đặc biệt quan trọng khi làm việc với tiếng Việt, một ngôn ngữ giàu sắc thái, linh hoạt trong cú pháp và ngữ cảnh.
Một yếu tố then chốt trong thành công của dự án là việc lựa chọn kiến trúc mô hình phù hợp với đặc thù bài toán và đồng thời tối ưu theo hạn chế của hạ tầng triển khai thực tế — bao gồm giới hạn GPU, dung lượng bộ nhớ và thời gian inference. Đội ngũ đã có những phân tích kỹ lưỡng, cân nhắc giữa các phương án từ mô hình lightweight đến các kiến trúc phức tạp hơn, để tìm ra điểm cân bằng tối ưu giữa tốc độ, độ chính xác và khả năng tích hợp vào hệ thống sản phẩm thực tế. Chính nhờ lựa chọn kiến trúc đúng đắn này, mô hình CATI-VLM đã chứng minh được hiệu quả và độ ổn định khi đưa vào vận hành trong môi trường thực.
Khẳng định vị thế Việt Nam trong AI thị giác tài liệu
Thành tích Top 12 thế giới DocVQA không chỉ là chiến thắng kỹ thuật, mà là cột mốc tinh thần, mở đường cho việc:
- Ứng dụng mô hình vào sản phẩm thực tế như bóc tách thông tin hợp đồng, hóa đơn, form đăng ký tự động.
- Chuyển giao công nghệ cho các đối tác ngân hàng, y tế, bảo hiểm, hành chính công.
- Tham gia sâu hơn vào cộng đồng AI quốc tế.
Mô hình CATI-VLM là minh chứng rõ nét cho khát vọng làm chủ công nghệ lõi, năng lực nội tại và tinh thần không bỏ cuộc của người Việt. Với nền tảng đó, CMC ATI đang hướng tới tương lai nơi các mô hình AI “Make in Vietnam” “Made by CMC” không chỉ phục vụ người Việt mà còn vươn ra thế giới.