AI: Điểm yếu nguy hiểm của ngôn ngữ ít dữ liệu

Hương Giang/Vnanet.vn
13:10' - 28/03/2026

BNEWS Trong vài năm qua, trí tuệ nhân tạo (AI) đã bước ra khỏi phòng thí nghiệm để đi vào đời sống, từ lớp học, văn phòng cho đến phòng khám.

Những mô hình ngôn ngữ lớn (LLM) được ca ngợi như những “bộ não biết nói”, có thể tư vấn, phân tích, thậm chí hỗ trợ con người ra quyết định.

Trí tuệ nhân tạo ngày càng hiện diện ở nhiều lĩnh vực. Ảnh minh hoạ

Nhưng đằng sau vẻ trơn tru ấy, có một khoảng trống âm thầm: AI không "giỏi" mọi ngôn ngữ và tiếng Anh luôn chiếm ưu thế. Đôi khi, sự thiếu công bằng đó không chỉ là vấn đề kỹ thuật mà là vấn đề sinh tử. Hãy hình dung một câu hỏi tưởng chừng đơn giản: một phụ nữ mang thai bị phù chân vào cuối thai kỳ nên làm gì? Với người hỏi bằng tiếng Anh, câu trả lời của AI có thể rất chuẩn xác: cần cảnh giác với tiền sản giật, một biến chứng nguy hiểm. Nhưng với người hỏi bằng một ngôn ngữ khác, tiếng Swahili (ngôn ngữ phổ biến ở khu vực Đông Phi) chẳng hạn, câu trả lời lại có thể là: “Bạn không cần lo lắng”.

Phóng viên TTXVN tại London dẫn kết quả của một nghiên cứu mới đây cho thấy độ chính xác của mô hình ở những ngôn ngữ ngoài tiếng Anh có thể thấp hơn tới gần 30 điểm phần trăm. Trong trường hợp tệ nhất, một mô hình có thể trả lời đúng khoảng 75% câu hỏi bằng tiếng Anh lại chỉ đạt 22,6% ở ngôn ngữ khác. Một sự chênh lệch như vậy, nếu xảy ra trong lĩnh vực y tế hay pháp lý, không còn là lỗi công nghệ, mà là rủi ro xã hội.

Điều đáng nói là thế giới không vận hành bằng một ngôn ngữ duy nhất. Khi các tổ chức quốc tế bắt đầu triển khai AI ở những khu vực đang phát triển – từ châu Phi đến Đông Nam Á – những cộng đồng không nói tiếng Anh lại là những đối tượng được kỳ vọng sẽ hưởng lợi nhiều nhất. Trớ trêu thay, đây lại là nhóm ít có khả năng tận dụng các công cụ này, bởi các mô hình AI hiện tại vẫn xử lý các ngôn ngữ ít dữ liệu (không phải tiếng Anh) một cách kém hiệu quả.

Vấn đề không chỉ nằm ở dữ liệu, mà còn nằm ở cách AI “nghĩ”. Phần lớn các mô hình hiện nay được huấn luyện trên kho dữ liệu khổng lồ bằng tiếng Anh. Khi gặp một ngôn ngữ khác, các mô hình thường “dịch ngược” về tiếng Anh để xử lý, rồi mới trả lời lại. Quy trình hai bước ấy nghe có vẻ hợp lý, nhưng thực chất lại mở ra thêm nhiều tầng sai lệch.

Ngay cả ở cấp độ kỹ thuật sâu hơn, sự thiên lệch cũng đã được “lập trình” từ đầu. Các mô hình xử lý văn bản bằng cách chia nhỏ thành “token” — những đơn vị ngôn ngữ cơ bản. Vì được huấn luyện chủ yếu bằng tiếng Anh, chúng phân mảnh các ngôn ngữ khác kém hiệu quả hơn. Cùng một câu có thể cần nhiều token hơn gấp nhiều lần ở ngôn ngữ khác… khiến chi phí tăng lên đáng kể. Điều đó có nghĩa là không chỉ kém chính xác hơn, người dùng ở các ngôn ngữ khác còn phải trả giá đắt hơn - theo cả nghĩa đen lẫn nghĩa bóng.

Một phản ứng tự nhiên là “trộn” thêm tiếng Anh vào câu hỏi, hy vọng AI sẽ hiểu rõ hơn, song điều này lại phản tác dụng. Theo nghiên cứu, việc trộn nhiều ngôn ngữ trong cùng một câu hỏi… thường làm hiệu suất giảm thêm. Thay vì giúp mô hình bám vào điểm tựa, hệ thống rơi vào trạng thái nhiễu loạn giữa các ngôn ngữ.

Điều đáng suy ngẫm không chỉ là AI chưa hoàn hảo, mà là con người đang quá nhanh chóng tin vào sự hoàn hảo ấy. Khi một công nghệ được triển khai ở quy mô toàn cầu, mọi sai lệch nhỏ đều có thể nhân lên thành hệ quả lớn. Một câu trả lời sai trong tiếng Anh có thể được kiểm chứng lại, nhưng một câu trả lời sai trong một ngôn ngữ ít phổ biến có thể không bao giờ bị phát hiện.

Mặc dù vậy, vẫn có những tín hiệu tích cực. Chỉ cần bổ sung một lượng nhỏ dữ liệu chất lượng cao bằng ngôn ngữ địa phương, hiệu suất của mô hình đã có thể cải thiện đáng kể. Nhưng đó mới chỉ là bước đầu. Điều cần thiết hơn là một cách tiếp cận công bằng ngay từ gốc: xây dựng AI không chỉ “biết nhiều”, mà còn “hiểu đều các ngôn ngữ”. Nếu không, trí tuệ nhân tạo thay vì thu hẹp khoảng cách tri thức, lại có nguy cơ đào sâu thêm những bất bình đẳng vốn đã tồn tại. Khi đó, câu hỏi không còn là AI thông minh đến đâu, mà là: AI đang phục vụ ai.

Hương Giang/Vnanet.vn

Tin cùng chuyên mục

Công nghệ
Công nghệ làm mát đô thị để ứng phó nắng nóng cực đoan
07:30' - 28/06/2026
Công nghệ này cho phép đẩy một phần năng lượng Mặt Trời trở lại khí quyển thay vì hấp thụ vào công trình, từ đó giảm nhu cầu sử dụng điều hòa và góp phần cắt giảm phát thải khí nhà kính.
Công nghệ
Khoác “áo số” cho di sản nghìn năm Tháp Bà Pô Nagar
13:00' - 27/06/2026
Việc áp dụng công nghệ vào di tích không thuần túy là xu hướng kỹ thuật mà là phương thức diễn giải di sản mới, sinh động và bền vững hơn.
Công nghệ
Thái Lan: “Tiếp sức số” cho nông dân
08:00' - 27/06/2026
Theo kế hoạch, chương trình sẽ đào tạo miễn phí theo hình thức trực tiếp và trực tuyến cho ít nhất 2.000 nông dân và doanh nghiệp SMEs trong lĩnh vực nông nghiệp.
Công nghệ
Đấu giá tên miền .vn: Ok.vn đạt mức trả giá cao nhất 109 triệu đồng
16:17' - 26/06/2026
Đợt 2 đấu giá cấp quyền sử dụng tên miền quốc gia Việt Nam “.vn” có độ dài 2 ký tự tiếp tục ghi nhận sự quan tâm tích cực của cộng đồng trong hai ngày 24 và 25/6.
Công nghệ
OpenAI cân nhắc hoãn IPO đến năm 2027
15:21' - 26/06/2026
Theo báo cáo vừa công bố từ New York Times, OpenAI đang xem xét hoãn kế hoạch phát hành cổ phiếu lần đầu ra công chúng (IPO) cho đến năm 2027.
Công nghệ
Hướng đi mới cho pin nhiên liệu hydro
13:00' - 26/06/2026
Theo các nhà khoa học, công nghệ này có tiềm năng ứng dụng trong ô tô chạy bằng hydro, tàu hỏa, máy bay không người lái, tàu thủy, hệ thống điện phân tán.
Công nghệ
Trung tâm cấp quốc gia đầu tiên hỗ trợ sản xuất thử chip bán dẫn
12:02' - 26/06/2026
Ngày 26/6, tại Hà Nội, Bộ Khoa học và Công nghệ tổ chức Lễ ra mắt Trung tâm quốc gia hỗ trợ sản xuất thử chip bán dẫn (Vietnam National Multi-Project Wafer Coordination Center - VNMPW/CC).
Công nghệ
Ứng dụng AI giúp đảm bảo tại các giao lộ đường sắt ở Nhật Bản
07:30' - 26/06/2026
Ngày càng nhiều nhà điều hành đường sắt của Nhật Bản áp dụng các hệ thống đảm bảo an toàn sử dụng trí tuệ nhân tạo (AI) để giúp ngăn ngừa tai nạn liên quan đến tàu hỏa tại các giao lộ đường sắt.
Công nghệ
LHQ thông qua bộ quy tắc toàn cầu đầu tiên cho xe tự hành
16:30' - 25/06/2026
Một cơ quan thuộc Liên hợp quốc (LHQ) cho biết đã chính thức thông qua bộ quy tắc toàn cầu đầu tiên dành cho xe tự hành hoàn toàn vào ngày 24/6.

Tin nổi bật

Điểm báo trong tuần

https://baodautu.vn/
Intel muốn mở rộng đầu tư tại Việt Nam

Sau khoản đầu tư 1 tỷ USD vào nhà máy tại Việt Nam, Intel đang dự kiến đầu tư thêm một khoản lớn hơn nữa vào Việt Nam trong những năm tiếp theo. Thông tin được chia sẻ bởi ông Kim Huat Ooi, Phó chủ tịch kiêm Tổng giám đốc Công ty TNHH Intel Products Việt Nam tại Hội nghị trực tuyến Diễn đàn doanh nghiệp Thành phố Hồ Chí Minh – Hoa Kỳ
https://vnexpress.net/
Con trai chủ tịch Vinasun muốn thoái sạch vốn

Ông Đặng Thành Duy, Phó tổng giám đốc Công ty cổ phần Ánh Dương Việt Nam (Vinasun) vừa đăng ký bán hết 5,4 triệu cổ phiếu, tương đương 7,97% vốn. Giao dịch dự kiến thực hiện bằng phương thức thoả thuận từ 27/8 đến 25/9, nhằm giải quyết việc riêng.
https://vietnamfinance.vn/
Khu đô thị sinh thái kiểu mẫu Mộc Châu gần 3.400 tỷ tại Sơn La tìm chủ đầu tư

UBND tỉnh Sơn La vừa phê duyệt danh mục dự án đầu tư có sử dụng đất cần lựa chọn nhà đầu tư năm 2020 đối với dự án khu đô thị sinh thái kiểu mẫu Mộc Châu tại thị trấn Nông trường Mộc Châu, huyện Mộc Châu.
https://vietnamfinance.vn/
Tập đoàn T&T muốn làm siêu dự án 2 tỷ USD, rộng 2.000ha ở Đắk Nông

Công ty Cổ phần Tập đoàn T&T đề xuất đầu tư dự án khu đô thị du lịch sinh thái hồ Đắk R’tíh (tỉnh Đắk Nông) có diện tích gần 2.000ha, tổng mức đầu tư khoảng 2 tỷ USD.
https://tuoitre.vn/
Vụ người Việt lừa 7.000 khách Mỹ mua nước rửa tay, khẩu trang: khởi tố, tạm giam 4 người

Bộ Ngoại giao Việt Nam ngày 20-8 xác nhận phía Việt Nam đã khởi tố, bắt tạm giam 4 người liên quan tới vụ nhóm người Việt Nam làm trang web giả, lừa 7.000 khách hàng ở Mỹ mua khẩu trang và nước rửa tay phòng COVID-19.
http://vnptmedia.vn/
VNPT lãi gần 3.600 tỷ nửa đầu năm, tăng nhẹ bất chấp COVID-19

Theo công bố thông tin từ Tập đoàn Bưu chính Viễn thông Việt Nam (VNPT), 6 tháng đầu năm 2020, doanh nghiệp ghi nhận trên 24.200 tỷ đồng doanh thu thuần hợp nhất, giảm 7,3% so với cùng kỳ năm ngoái. Sau khi trừ đi giá vốn, lợi nhuận gộp còn lại là trên 7.000 tỷ đồng, giảm 5,7%.
https://baodautu.vn/
Bình quân mỗi tháng Vietlott lãi gần 17 tỷ đồng

Theo Báo cáo tài chính 6 tháng, kết thúc ngày 30/06/2020, Vietlott ghi nhận tổng doanh thu thuần tăng 680 tỷ đồng so với cùng kỳ năm ngoái và lợi nhuận sau thuế đạt 99,7 tỷ đồng. Trong doanh thu chưa thuế đã mở thưởng 1.852 tỷ đồng thì xổ số tự chọn theo ma trận (Mega 6/45 và Power 6/55) đóng góp 1.000 tỷ đồng.
https://vnexpress.net/
Đại gia Thái Lan thất thu vì Sabeco

Tin đồn thất thiệt, nghị định 100 và lệnh giãn cách xã hội lần lượt giáng vào Sabeco khiến loạt chỉ tiêu kinh doanh của Thaibev tăng trưởng âm.
https://cafebiz.vn/
Samsung Việt Nam phủ nhận việc chuyển một phần sản xuất smartphone từ Việt Nam sang Ấn Độ

Theo The Economic Times (nhật báo kinh tế uy tín của Ấn Độ), Tập đoàn Samsung có thể chuyển một phần hoạt động sản xuất điện thoại thông minh từ Việt Nam và các nước khác sang Ấn Độ. T
https://cafef.vn/
Từ ngày 1/10, phạt đến 10 triệu đồng khi gọi, nhắn tin quảng cáo mà chưa được người sử dụng cho phép

Nghị định 91/2020/NĐ-CP về chống tin nhắn rác, thư điện tử, cuộc gọi rác quy định phạt tiền từ 5 đến 10 triệu đồng đối với hành vi gọi điện quảng cáo đến người sử dụng khi chưa được người sử dụng đồng ý một cách rõ ràng.

Tin mới

AI: Điểm yếu nguy hiểm của ngôn ngữ ít dữ liệu

Tin liên quan

Nâng cao năng lực chuyển đổi số cho lãnh đạo, quản lý và công chức

Drone và công nghệ số giúp nông dân Đồng Tháp tăng lợi nhuận

Chuyển đổi số và AI đang làm thay đổi hệ sinh thái của ngành Dược

Phát triển thị trường lao động gắn với chuyển đổi số

Tháng Thanh niên 2026: Tuổi trẻ tiên phong chuyển đổi số

Tin cùng chuyên mục

Công nghệ làm mát đô thị để ứng phó nắng nóng cực đoan

Khoác “áo số” cho di sản nghìn năm Tháp Bà Pô Nagar

Thái Lan: “Tiếp sức số” cho nông dân

Đấu giá tên miền .vn: Ok.vn đạt mức trả giá cao nhất 109 triệu đồng

OpenAI cân nhắc hoãn IPO đến năm 2027

Hướng đi mới cho pin nhiên liệu hydro

Trung tâm cấp quốc gia đầu tiên hỗ trợ sản xuất thử chip bán dẫn

Ứng dụng AI giúp đảm bảo tại các giao lộ đường sắt ở Nhật Bản

LHQ thông qua bộ quy tắc toàn cầu đầu tiên cho xe tự hành

Sự kiện kinh tế thế giới nổi bật tuần qua

12 doanh nghiệp chốt quyền họp đại hội cổ đông tuần tới

Chính phủ giao chỉ tiêu tăng trưởng cho các địa phương năm 2026 và giai đoạn 2026-2030

Cao tốc hơn 31.000 tỷ ở miền Tây: Cầu vượt tiến độ, đường nằm chờ cát

Môi giới bất động sản bước vào kỷ nguyên chuẩn mực và minh bạch

Intel muốn mở rộng đầu tư tại Việt Nam

Con trai chủ tịch Vinasun muốn thoái sạch vốn

Khu đô thị sinh thái kiểu mẫu Mộc Châu gần 3.400 tỷ tại Sơn La tìm chủ đầu tư

Tập đoàn T&T muốn làm siêu dự án 2 tỷ USD, rộng 2.000ha ở Đắk Nông

Vụ người Việt lừa 7.000 khách Mỹ mua nước rửa tay, khẩu trang: khởi tố, tạm giam 4 người

VNPT lãi gần 3.600 tỷ nửa đầu năm, tăng nhẹ bất chấp COVID-19

Bình quân mỗi tháng Vietlott lãi gần 17 tỷ đồng

Đại gia Thái Lan thất thu vì Sabeco

Samsung Việt Nam phủ nhận việc chuyển một phần sản xuất smartphone từ Việt Nam sang Ấn Độ

Từ ngày 1/10, phạt đến 10 triệu đồng khi gọi, nhắn tin quảng cáo mà chưa được người sử dụng cho phép