Dataset ảnh hưởng đến AI ra sao?

Tại sao cùng một thuật toán nhưng AI này thông minh hơn AI kia? Bí mật nằm ở dữ liệu training. Hiểu rõ dataset giúp bạn đánh giá độ tin cậy của AI.

Định nghĩa

Dataset (tập dữ liệu) là nhiên liệu mà AI học tập để tạo ra kiến thức. Chất lượng, số lượng và độ đa dạng của dataset quyết định trực tiếp khả năng tư duy, độ chính xác và mức độ thiên lệch của mô hình sau khi training — giống như việc một đứa trẻ lớn lên thông minh hay không phụ thuộc vào sách vở và môi trường nó tiếp xúc.

Giải thích chi tiết

Chất lượng đánh bại số lượng

Có một quan niệm sai lầm phổ biến: "Càng nhiều data càng tốt". Thực tế, một dataset nhỏ nhưng được curated (chọn lọc kỹ càng) bởi chuyên gia thường tạo ra AI tốt hơn hàng petabyte dữ liệu internet thô (raw web crawl) đầy nhiễu và spam.

GPT-4 không chỉ mạnh vì scale lên số lượng parameter, mà vì OpenAI đã đầu tư nhiều nguồn lực để lọc và làm sạch dataset trước khi đưa vào training. Dữ liệu bẩn — như text tự động generated bởi bot, nội dung duplicate, hoặc thông tin sai lệch — khiến AI học được những pattern vô nghĩa hoặc có hại.

Bias từ quá khứ

Dataset là bản chụp lại thế giới — và thế giới đầy thành kiến. Nếu bạn train một LLM chỉ trên sách lịch sử phương Tây thế kỷ 19, AI sẽ mang góc nhìn thực dân và phân biệt chủng tộc. Nếu dataset y tế chủ yếu từ bệnh nhân da trắng, AI sẽ chẩn đoán sai bệnh về da ở người da màu.

Đây gọi là historical bias và representation bias. AI không có ý thức đạo đức — nó chỉ thống kê những gì có trong data. Nếu data thiếu representation của một nhóm người, AI sẽ "vô hình hóa" hoặc hiểu sai nhóm đó.

Ngôn ngữ và văn hóa trong Dataset

Hầu hết LLM lớn được train chủ yếu trên tiếng Anh (khoảng 90% content của Common Crawl là tiếng Anh). Điều này giải thích tại sao ChatGPT tiếng Việt đôi khi "Tây hóa" — dùng từ ngữ sang trọng quá mức, cấu trúc câu giống dịch thuật, hoặc thiếu insight văn hóa địa phương.

Dataset tiếng Việt trong các LLM thường là: Wikipedia, báo chí online, và một lượng lớn text dịch từ tiếng Anh sang (subtitles phim, sách dịch). Thiếu data về đời sống thực — như cách người Việt chat Zalo, comment Facebook, hoặc tranh luận trên các diễn đàn nội bộ — khiến AI khó nắm bắt ngữ cảnh văn hóa sâu.

Cutoff Date và Độ mới của Data

Dataset có "ngày hết hạn". Một LLM được train đến năm 2023 sẽ không biết sự kiện năm 2024. Nhưng vấn đề sâu hơn: nếu domain thay đổi nhanh (như luật pháp, y học, công nghệ), dataset cũ khiến AI đưa ra thông tin lỗi thời hoặc nguy hiểm.

Data Poisoning — Khi Dataset bị đầu độc

Trong data poisoning, kẻ xấu cố tình chèn nội dung độc hại vào training data để AI học hành vi sai lệch. Ví dụ: chèn hàng nghìn câu trả lời sai về lịch sử Việt Nam vào các trang web, hy vọng AI sẽ học và lan truyền thông tin sai lệch đó.

Ví dụ thực tế

ChatGPT nói tiếng Việt "không giống người": Khi yêu cầu viết caption quảng cáo cho quán phở ở Hà Nội, AI thường dùng từ ngữ quá trang trọng ("hương vị tuyệt vời", "trải nghiệm ẩm thực") thay vì giọng điệu đời thường ("phở ngon, nước dùng đậm đà, 30k/bát"). Nguyên nhân là dataset thiếu văn bản tiếng Việt đời sống thực, thay vào đó toàn văn phong báo chí hoặc marketing Tây dịch sang.

App chấm công khuôn mặt ở Việt Nam: Các giải pháp nhận diện khuôn mặt phương Tây thường hoạt động kém với người Việt (nhầm lẫn giữa các anh em trong gia đình) vì dataset training chủ yếu là người Caucasian. Các công ty VN như FPT hay Viettel khi tự phát triển AI đã phải xây dựng dataset riêng với hàng triệu khuôn mặt người Việt để đạt độ chính xác cao.

Shopee đề xuất sản phẩm sai đối tượng: Nếu dataset purchase history chủ yếu từ người trẻ đô thị, AI recommendation sẽ liên tục đề xuất đồ công nghệ, thời trang Hàn Quốc cho người dùng 50 tuổi ở nông thôn — dù họ thực sự cần nông cụ hoặc đồ gia dụng giá rẻ.

Ứng dụng

Sinh viên nghiên cứu: Khi trích dẫn thông tin từ AI, cần kiểm tra "cutoff date" của model và hỏi AI nguồn gốc của kiến thức đó. Nếu làm research về lịch sử Việt Nam, hãy nhận thức rằng dataset có thể thiên lệch về góc nhìn phương Tây nếu không được bổ sung nguồn tiếng Việt chất lượng.

Người làm marketing & content: Hiểu dataset giúp bạn đánh giá liệu AI có thực sự hiểu insight người Việt hay không. Nếu cần concept quảng cáo cho Tết Nguyên Đán, bạn nên cung cấp thêm context trong prompt vì dataset gốc có thể thiếu những nuance văn hóa đặc thù này.

Doanh nghiệp triển khai AI: Khi fine-tune model cho ngành đặc thù (y tế, luật, ngân hàng), không thể dùng data lỏm từ internet. Cần dataset được annotate bởi chuyên gia domain. Ví dụ: hồ sơ bệnh án phải được bác sĩ gắn nhãn chẩn đoán, không thể để AI tự học từ text thô trên mạng.

Developers & Kỹ sư AI: Khi đánh giá benchmark giữa các model, cần xem xét dataset được dùng để test. Một model đạt điểm cao trên benchmark tiếng Anh có thể hoạt động kém với tiếng Việt nếu không được đánh giá trên dataset đa ngôn ngữ phù hợp.

So sánh

Loại Dataset	Nguồn gốc	Chất lượng	Bias tiềm ẩn	Ứng dụng điển hình
Common Crawl (Web thô)	Crawl toàn bộ internet	Không đồng nhất, nhiều spam, duplicate	Cao — phản ánh mọi thành kiến và sai lệch trên web	Training LLM tổng quát ban đầu
C4/Filtered Web	Web đã lọc bằng heuristic	Cao hơn, loại bỏ low-quality content	Vẫn có nhưng giảm	LLM nâng cao như T5, LLaMA
Domain-Specific (Y tế, Luật)	Chuyên gia annotate	Rất cao, factual accuracy cao	Phụ thuộc vào nguồn chuyên ngành	Medical AI, Legal AI, Fine-tuning cho doanh nghiệp
Synthetic Data	AI tạo ra	Đồng nhất, dễ scale	Có thể amplify bias từ model gốc	Bổ sung data thiếu, training assistant model

Kết luận: Không có dataset hoàn hảo. Dataset công khai (public) tiện lợi nhưng đầy nhiễu và bias. Dataset chuyên ngành tốt nhưng đắt đỏ và khó scale. Lựa chọn dataset phù hợp là trade-off giữa coverage, chất lượng và chi phí — và quyết định này định nghĩa "tính cách" của AI cuối cùng.