Các thuật ngữ AI phổ biến

Từ điển thuật ngữ AI cho người mới: Machine Learning, Prompt, Bias, Token... Giải thích bằng ví dụ thực tế từ VinBrain, ChatGPT và ứng dụng tại Việt Nam.

Định nghĩa

Thuật ngữ AI là bộ từ vựng chuyên ngành dùng để mô tả công nghệ trí tuệ nhân tạo, bao gồm các khái niệm về mô hình, dữ liệu và quá trình hoạt động của hệ thống AI.

AI (Artificial Intelligence) là mục tiêu cuối cùng: máy tính có khả năng thông minh như con người. Machine Learning (ML) là phương pháp để đạt được mục tiêu đó: dạy máy tính học từ dữ liệu thay vì lập trình cứng nhắc từng bước. Deep Learning là công cụ cụ thể: dùng mạng neural nhiều lớp để xử lý dữ liệu phức tạp như hình ảnh và giọng nói.

Mối quan hệ giống như: AI là mục tiêu có bằng lái xe, ML là cách học lái qua thực hành, Deep Learning là phương pháp học bằng cách quan sát hàng nghìn video lái xe thay vì đọc sách lý thuyết.

Thuật toán và Mô hình (Algorithm và Model)

Thuật toán là công thức toán học — ví dụ như cách tính điểm tín dụng dựa trên thu nhập và lịch sử nợ. Mô hình là kết quả sau khi thuật toán "học" từ dữ liệu thực tế — như một người thợ sau khi học nghề có kinh nghiệm riêng biệt. Cùng một thuật toán nhưng dữ liệu huấn luyện khác nhau sẽ tạo ra mô hình khác nhau.

Dữ liệu huấn luyện và Suy luận (Training Data và Inference)

Training Data là tài liệu học của AI — hàng nghìn bức ảnh chó mèo để AI học nhận biết đặc điểm. Inference là lúc AI đi thi: sau khi học xong, AI nhận một bức ảnh mới chưa từng thấy và đoán đó là chó hay mèo. Giai đoạn Training tốn nhiều năng lượng và thời gian, còn Inference diễn ra trong tích tắc.

Prompt, Token và Large Language Model (LLM)

Prompt là câu hỏi hoặc yêu cầu bạn gõ vào ChatGPT. Token là đơn vị xử lý ngôn ngữ — không phải từ hoàn chỉnh mà là mảnh nhỏ của từ (ví dụ "học" + "sinh" = 2 token trong tiếng Việt). LLM (Large Language Model) là mô hình ngôn ngữ lớn như GPT-4, được huấn luyện trên hàng tỷ trang web và sách vở để hiểu ngôn ngữ tự nhiên.

Bias và Overfitting

Bias là thiên kiến trong dữ liệu hoặc thuật toán — khi AI học từ dữ liệu không đại diện, ví dụ chỉ nhận diện khuôn mặt người da trắng tốt hơn người da màu. Overfitting là hiện tượng học vẹt — AI nhớ quá kỹ dữ liệu huấn luyện đến mức không nhận ra dữ liệu mới tương tự, giống như học sinh học thuộc lòng đề cũ nhưng không giải được đề mới.

Generative AI và Hallucination

Generative AI là AI có khả năng sáng tạo nội dung mới: viết văn bản, vẽ tranh, tạo nhạc. Hallucination (ảo giác) là hiện tượng AI tự bịa thông tin — nói chuyện rất có lý nhưng sai sự thật, ví dụ trích dẫn nguồn không tồn tại hoặc phát minh sự kiện lịch sử.

Ví dụ thực tế

VinBrain đọc phim X-quang VinBrain — công ty y tế AI của Việt Nam — huấn luyện mô hình bằng hàng chục nghìn phim X-quang lồng ngực từ bệnh viện Việt Đức và Bạch Mai. Quá trình này gọi là Training. Khi bác sĩ tải phim mới lên hệ thống, AI thực hiện Inference để tìm dấu hiệu bất thường. Nếu dữ liệu huấn luyện chỉ có phim của người Hà Nội, mô hình có thể có Bias khi đọc phim của bệnh nhân miền Nam do đặc điểm cơ địa và thiết bị chụp khác nhau.

Chấm điểm tự động trong giáo dục Các trường đại học Việt Nam thử nghiệm dùng AI chấm bài luận văn. Học sinh nhập đề bài vào Prompt, AI phân tích cấu trúc và nội dung. Mỗi từ trong bài làm được tách thành Token để AI tính toán ngữ cảnh. Nếu mô hình chỉ được huấn luyện trên bài viết của sinh viên khoa Luật, nó sẽ Overfitting — chấm điểm thấp cho bài viết khoa Văn vì phong cách khác biệt, dù nội dung chất lượng cao.

Deepfake và nhận diện khuôn mặt Công nghệ Deepfake dùng Deep Learning để ghép mặt người nổi tiếng vào video giả. Khi bạn mở khóa điện thoại bằng khuôn mặt, điện thoại dùng Neural Network đã được huấn luyện trên hàng nghìn khuôn mặt đa dạng. Nếu nhà sản xuất chỉ thu thập dữ liệu từ người châu Á, AI có thể thất bại với người châu Phi — đây là vấn đề Bias trong thuật toán nhận diện khiến sản phẩm không thể bán toàn cầu.

Ứng dụng

Sinh viên Hiểu thuật ngữ giúp bạn đọc tài liệu học tập hiệu quả hơn. Khi biết Token là gì, bạn sẽ hiểu tại sao ChatGPT tính phí theo độ dài văn bản và cách viết Prompt ngắn gọn để tiết kiệm chi phí. Nắm được khái niệm Bias giúp bạn phê phán nghiên cứu khoa học một cách có căn cứ, không tin tưởng mù quáng vào kết quả AI đưa ra.

Người đi làm Trong họp dự án, khi đội kỹ thuật nói "cần thêm training data" hoặc "model đang overfitting", bạn hiểu ngay vấn đề là thiếu dữ liệu hoặc AI đang học vẹt chứ không phải lỗi lập trình. Biết phân biệt Algorithm và Model giúp bạn đánh giá đúng giá trị của giải pháp AI — thuật toán có thể mua từ bên thứ ba, nhưng mô hình cần dữ liệu nội bộ của công ty mới cho kết quả chính xác.

Doanh nghiệp Khi mua phần mềm AI, việc hiểu Inference giúp bạn tính toán chi phí vận hành (thường tính theo số lần gọi API). Hiểu Hallucination giúp bạn thiết lập quy trình kiểm tra con người cho các quyết định quan trọng, tránh tin tưởng hoàn toàn vào AI viết hợp đồng hoặc phân tích thị trường mà không rà soát.

So sánh

Thuật ngữ	Định nghĩa ngắn gọn	Tương tự trong đời sống
Training	Dạy AI từ dữ liệu	Học sinh học bài trong sách giáo khoa
Inference	AI áp dụng đã học để trả lời	Học sinh làm bài kiểm tra
Algorithm	Công thức toán học	Công thức nấu ăn trong sách dạy nấu
Model	Kết quả sau khi huấn luyện	Món ăn hoàn thành theo công thức
Prompt	Yêu cầu gửi cho AI	Câu hỏi trong bài thi trắc nghiệm
Bias	Thiên kiến trong dữ liệu	Giáo viên chấm điểm cao hơn cho học sinh cùng quê

Training và Inference là hai giai đoạn tách biệt: giống như học sinh không được mang sách vào phòng thi, AI khi Inference không được xem lại dữ liệu huấn luyện mà phải dựa vào kiến thức đã ghi nhớ trong mô hình.