TROISINH
Hiểu bản chấtKhái niệm ML nâng cao

Embedding là gì?

Embedding là cách AI chuyển đổi văn bản, hình ảnh thành vector số để hiểu ngữ nghĩa. Khám phá cách TikTok gợi ý video và Shopee tìm hàng bằng hình ảnh.

Định nghĩa

Embedding là kỹ thuật chuyển đổi dữ liệu phi cấu trúc (văn bản, hình ảnh, âm thanh) thành các vector số học trong không gian nhiều chiều, nơi những dữ liệu có ý nghĩa tương tự nhau sẽ nằm gần nhau và có thể đo lường mối quan hệ bằng toán học.

Giải thích chi tiết

Tại sao AI cần Embedding?

AI và Machine Learning không hiểu được "con mèo" hay "cảm xúc vui" — chúng chỉ xử lý được số. Cách tiếp cận cũ dùng One-Hot Encoding (mã hóa một nóng) biến mỗi từ thành vector dài hàng nghìn chiều, toàn số 0 và một số 1. Cách này cồng kềnh và không thể hiện được hai từ nào gần nghĩa nhau.

Embedding giải quyết bài toán này bằng cách nén thông tin vào các vector ngắn gọn (thường 768, 1024 hoặc 1536 chiều), nơi mỗi con sé thể hiện một khía cạnh ngữ nghĩa. Kết quả là "Hà Nội" và "Sài Gòn" sẽ có vector gần nhau hơn "Hà Nội" và "cá heo", dù cả ba đều là danh từ.

Không gian ngữ nghĩa và tính toán vector

Trong không gian Embedding, quan hệ giữa các khái niệm trở thành quan hệ hình học. Ví dụ nổi tiếng: nếu lấy vector của "vua", trừ đi "nam" và cộng "nữ", kết quả sẽ rất gần với vector của "hoàng hậu". Tương tự, "Việt Nam" + "tài chính" có thể cho vector gần "Ngân hàng Nhà nước".

Điều này cho phép AI thực hiện Semantic Search (tìm kiếm theo ngữ nghĩa): không cần từ khóa chính xác, chỉ cần ý nghĩa tương đồng. Các thuật toán như cosine similarity đo khoảng cách góc giữa hai vector để xác định độ tương đồng.

Contextual Embedding và sự tiến hóa

Công nghệ cũ như Word2Vec tạo Static Embedding: mỗi từ có một vector cố định dù ngữ cảnh thay đổi. Nhưng trong câu "tôi đi ngân hàng" và "tôi ngồi bên bờ ngân hàng", chữ "ngân hàng" hoàn toàn khác nghĩa.

Các mô hình hiện đại (BERT, GPT) sử dụng Contextual Embedding: vector của một từ được tính toán dựa trên toàn bộ câu văn xung quanh. Đây là lý do ChatGPT có thể phân biệt nghĩa đen và nghĩa bóng, hiểu được tiếng lóng và câu nói mỉa mai trong tiếng Việt.

Ví dụ thực tế

TikTok và thuật toán "hiểu" sở thích

Khi bạn xem video nấu ăn trên TikTok, hệ thống không chỉ ghi nhớ dòng chữ "#cooking". Nó chuyển nội dung video thành vector Embedding, đồng thời tạo vector cho sở thích của bạn dựa trên lịch sử xem. Hai vector này càng gần nhau, video càng được đề xuất lên đầu. Đây là lý do bạn thấy "đúng gu" ngay cả khi người đăng không dùng từ khóa mô tả rõ ràng.

Shopee tìm kiếm bằng hình ảnh

Bạn chụp ảnh chiếc váy hoa nhãn dán xem ở ngoài đường, upload lên Shopee. Hệ thống không đọc được chữ "váy hoa" trong ảnh mà sử dụng Multimodal Embedding: chuyển ảnh thành vector, so sánh với vector của hàng triệu sản phẩm trong kho. Kết quả trả về những món đồ tương tự về hình dáng, màu sắc, dù mô tả văn bản hoàn toàn khác nhau.

Grab xử lý địa chỉ Việt Nam

Địa chỉ ở Việt Nam cực kỳ hỗn loạn: "Highlands Nguyễn Trãi", "Highland Coffee 342 Nguyễn Trãi", "HLD Nguyễn Trãi" đều là một địa điểm. Grab sử dụng Entity Embedding để chuyển các biến thể tên đường, tên quán thành vector chuẩn hóa. Nhờ đó, tài xế được chỉ đến đúng điểm dù khách hàng viết tắt hay sai chính tả.

Ứng dụng

Sinh viên: Tìm kiếm tài liệu học thuật

Thay vì tìm từ khóa "machine learning" và bỏ sót những bài viết dùng thuật ngữ "học máy" hay "deep learning", sinh viên có thể dùng công cụ tìm kiếm ngữ nghĩa dựa trên Embedding. Hệ thống sẽ đề xuất cả những bài nói về "neural network", "pattern recognition" vì chúng nằm gần nhau trong không gian vector, giúp nghiên cứu toàn diện hơn.

Người đi làm: Phân loại và lọc thông tin

Nhân viên chăm sóc khách hàng có thể dùng Embedding để phân loại hàng nghìn email, comment Zalo Page theo sentiment: "sản phẩm chán" và "hàng dở tệ" có vector gần nhau, cùng thuộc nhóm tiêu cực dù từ vựng khác biệt. Marketing cũng dùng kỹ thuật này để gom nhóm khách hàng có sở thích tương đồng từ dữ liệu hành vi mua sắm.

Doanh nghiệp: Xây dựng hệ thống RAG

Khi triển khai chatbot nội bộ, doanh nghiệp chuyển toàn bộ tài liệu công ty (quy định, hợp đồng mẫu, FAQ) thành Embedding và lưu trong Vector Database. Khi nhân viên hỏi "thủ tục xin nghỉ phép", hệ thống không chỉ tìm từ khóa mà hiểu câu hỏi để truy xuất cả đoạn trong "policy leave" hay "quy định nhân sự 2024" — nền tảng của kỹ thuật RAG (Retrieval Augmented Generation) giúp LLM trả lời chính xác dựa trên dữ liệu nội bộ.

So sánh

Đặc điểmOne-Hot EncodingTìm kiếm từ khóa truyền thốngEmbedding (Vector)
Cách biểu diễnVector cực lớn, toàn số 0 và một số 1Chỉ mục từ khóa (inverted index)Vector số thực dày đặc (dense)
Kích thướcBằng số lượng từ vựng (hàng triệu chiều)-Nhỏ gọn (128-1536 chiều)
Ngữ nghĩaKhông có, mỗi từ độc lậpPhụ thuộc hoàn toàn từ khóa chính xácCó, từ tương tự nằm gần nhau
Khả năng mở rộngKém, tốn bộ nhớTốt cho dữ liệu có cấu trúcTốt cho dữ liệu phi cấu trúc
Tìm kiếmKhông thể tìm tương tựChính xác từ khóa hoặc substringTìm theo ý nghĩa (semantic search)

Embedding không thay thế hoàn toàn cơ sở dữ liệu truyền thống hay tìm kiếm từ khóa, mà bổ sung khả năng "hiểu ngữ cảnh" mà các phương pháp kỹ thuật cũ không thể đạt được. Đây là lý do các ứng dụng AI hiện đại có thể xử lý ngôn ngữ tự nhiên một cách linh hoạt như con người.

Bài viết liên quan

Cùng cụm

  • AI học online vs offline — Hiểu cách mô hình AI cập nhật kiến thức sau khi đã triển khai, liên quan đến việc cập nhật Embedding theo thời gian thực.
  • Inference là gì? — Sau khi có Embedding, mô hình sử dụng chúng như thế nào trong giai đoạn dự đoán.
  • Overfitting là gì? — Vấn đề mô hình học thuộc lòng dữ liệu huấn luyện, khiến Embedding không còn tổng quát hóa được.
  • Underfitting là gì? — Khi mô hình chưa đủ phức tạp để tạo ra Embedding có ý nghĩa.

Đọc tiếp

  • Machine Learning cơ bản — Quay lại nền tảng để hiểu cách Embedding được tạo ra từ quá trình huấn luyện mô hình.
  • RAG và tìm kiếm thông minh — Ứng dụng thực chiến của Embedding trong việc xây dựng chatbot doanh nghiệp với khả năng truy xuất thông tin chính xác.
  • Fine-tuning trong thực chiến — Cách điều chỉnh và tối ưu Embedding cho dữ liệu chuyên biệt của từng lĩnh vực.

On this page