Underfitting là gì?

Underfitting xảy ra khi mô hình AI quá đơn giản để hiểu dữ liệu. Tìm hiểu cách nhận biết và khắc phục hiện tượng "học dốt" này trong Machine Learning.

Định nghĩa

Underfitting là tình trạng mô hình Machine Learning quá đơn giản so với độ phức tạp của dữ liệu thực tế, khiến nó không thể nắm bắt được các quy luật cơ bản (patterns) và cho kết quả dự đoán kém chính xác ngay cả trên dữ liệu đã học.

Giải thích chi tiết

Dấu hiệu nhận biết Underfitting

Khi một mô hình bị underfitting, cả training loss và validation loss đều ở mức cao và gần nhau. Khác với overfitting (học vẹt), ở đây mô hình "học dốt" — nó không chỉ thất bại trên dữ liệu mới mà còn thất bại ngay trên dữ liệu đã từng nhìn thấy trong quá trình huấn luyện. Biểu đồ loss sẽ cho thấy đường training và validation chạy song song và cùng "lẹt đẹt" ở mức cao, không có xu hướng giảm rõ rệt.

Nguyên nhân gốc rễ

Underfitting thường bắt nguồn từ việc mô hình thiếu sức mạnh biểu diễn (model capacity). Ví dụ: dùng hồi quy tuyến tính cho dữ liệu phi tuyến phức tạp, hoặc dùng neural network quá ít lớp để nhận diện hình ảnh. Các nguyên nhân khác bao gồm thiếu đặc trưng (features) quan trọng, regularization quá mạnh (dropout quá cao, weight decay quá lớn), hoặc huấn luyện chưa đủ epochs — tức là dừng lại trước khi mô hình kịp học các pattern cơ bản.

Vị trí trong Bias-Variance Tradeoff

Trong lý thuyết Bias-Variance, underfitting đại diện cho high bias, low variance. Mô hình có độ chệch (bias) lớn vì giả định quá đơn giản về thực tế, nhưng lại ổn định (low variance) vì kết quả rất đồng đều — đồng đều ở mức "dở tệ". Đây là trường hợp mô hình "bảo thủ" đến mức bỏ qua cả thông tin hữu ích.

Ví dụ thực tế

Dự đoán giá xe máy cũ bằng hồi quy tuyến tính

Một sinh viên làm đồ án dự đoán giá xe SH cũ tại TP.HCM chỉ dựa trên một biến duy nhất: số năm sử dụng. Mô hình đưa ra công thức đơn giản "Giá = 80 triệu - 5 triệu × số năm", bỏ qua hãng xe, số km, tình trạng máy, và giá thị trường. Kết quả là dự đoán sai lệch 20-30 triệu đồng cho mỗi chiếc xe — đây là underfitting vì mô hình không đủ phức tạp để thể hiện thực tế thị trường xe cũ đa chiều.

Chatbot hỏi đáp khách hàng dùng rule-based đơn giản

Công ty thương mại điện tử triển khai chatbot chỉ dựa trên từ khóa cứng nhắc: nếu câu hỏi chứa "giá" thì trả lời "Vui lòng xem bảng giá trên website". Khi khách hàng hỏi "Tại sao gói Premium đắt hơn Basic 200k/tháng mà tính năng chỉ khác mỗi lưu trữ cloud?", bot vẫn trả lời chung chung về bảng giá, không hiểu được ngữ cảnh so sánh và phân tích giá trị. Bot này underfitting với ngôn ngữ tự nhiên vì thiếu khả năng xử lý ngữ nghĩa sâu.

Nhận diện chữ viết tay tiếng Việt với mạng nơ-ron quá nhỏ

Khi huấn luyện mô hình nhận diện chữ Quốc ngữ có dấu (ă, â, ê, ô, ơ, ư), nếu chỉ dùng một neural network với 1-2 lớp ẩn, mô hình sẽ không phân biệt được "ma" và "má", "quan" và "quán". Nó coi tất cả là chữ cái cơ bản (a, e, o) vì không đủ tham số để học các nét thanh điệu phức tạp của tiếng Việt — hiện tượng underfitting trong xử lý ảnh.

Ứng dụng

Sinh viên làm đồ án Machine Learning

Khi thử nghiệm các thuật toán cơ bản như Linear Regression hoặc Decision Tree cạn (shallow tree) cho bài toán phân loại phức tạp, sinh viên thường gặp underfitting với độ chính xác 50-60% — tệ hơn cả đoán mò. Đây là tín hiệu cần nâng cấp lên Random Forest, Gradient Boosting, hoặc thêm các đặc trưng (feature engineering) mới như tương tác giữa các biến.

Người đi làm triển khai AI doanh nghiệp

Khi fine-tune mô hình ngôn ngữ lớn (LLM) cho tài liệu nội bộ công ty, nếu chỉ train 1-2 epochs với learning rate quá thấp, model có thể rơi vào underfitting — trả lời như thể chưa đọc tài liệu, chỉ dựa vào kiến thức gốc. Điều này đặc biệt nguy hiểm trong các ngành y tế hoặc pháp lý, khi model cần học thuật ngữ chuyên ngành cụ thể.

Doanh nghiệp thương mại điện tử

Hệ thống gợi ý sản phẩm nếu chỉ dựa trên "sản phẩm bán chạy chung toàn sàn" (item popularity) mà không phân tích hành vi cá nhân sẽ underfitting với nhu cầu người dùng. Kết quả là gợi ý kém cá nhân hóa — người mua tã bỉm bị gợi ý mua nồi cơm điện chỉ vì cả hai đều "bán chạy", làm giảm tỷ lệ chuyển đổi và trải nghiệm khách hàng.

So sánh

Tiêu chí	Underfitting	Overfitting
Bản chất	Mô hình quá đơn giản, bỏ sót pattern thực tế	Mô hình quá phức tạp, học cả nhiễu (noise)
Training Loss	Cao (mô hình học chưa tới)	Thấp (mô hình học rất kỹ)
Validation Loss	Cao và gần training loss	Cao hơn nhiều so với training loss
Biểu hiện	"Học dốt" — trả lời sai cả câu dễ	"Học vẹt" — trả lời đúng câu đã học, sai câu mới
Cách khắc phục	Tăng độ phức tạp model, thêm features, giảm regularization, tăng epochs	Giảm độ phức tạp, thêm dữ liệu, tăng regularization, early stopping

Cả underfitting và overfitting đều khiến mô hình không generalize được sang dữ liệu mới, nhưng underfitting là lỗi "thiếu hiểu biết" còn overfitting là lỗi "hiểu nhầm". Nhiều người mới học AI nhầm tưởng underfitting "an toàn" hơn vì ít rủi ro overfit, nhưng thực tế một mô hình underfit hoàn toàn vô dụng trong production.