Embedding là gì?

Embedding là cách AI chuyển đổi văn bản, hình ảnh thành vector số để hiểu ngữ nghĩa. Khám phá cách TikTok gợi ý video và Shopee tìm hàng bằng hình ảnh.

Định nghĩa

Embedding là kỹ thuật chuyển đổi dữ liệu phi cấu trúc (văn bản, hình ảnh, âm thanh) thành các vector số học trong không gian nhiều chiều, nơi những dữ liệu có ý nghĩa tương tự nhau sẽ nằm gần nhau và có thể đo lường mối quan hệ bằng toán học.

Giải thích chi tiết

Tại sao AI cần Embedding?

AI và Machine Learning không hiểu được "con mèo" hay "cảm xúc vui" — chúng chỉ xử lý được số. Cách tiếp cận cũ dùng One-Hot Encoding (mã hóa một nóng) biến mỗi từ thành vector dài hàng nghìn chiều, toàn số 0 và một số 1. Cách này cồng kềnh và không thể hiện được hai từ nào gần nghĩa nhau.

Embedding giải quyết bài toán này bằng cách nén thông tin vào các vector ngắn gọn (thường 768, 1024 hoặc 1536 chiều), nơi mỗi con sé thể hiện một khía cạnh ngữ nghĩa. Kết quả là "Hà Nội" và "Sài Gòn" sẽ có vector gần nhau hơn "Hà Nội" và "cá heo", dù cả ba đều là danh từ.

Không gian ngữ nghĩa và tính toán vector

Trong không gian Embedding, quan hệ giữa các khái niệm trở thành quan hệ hình học. Ví dụ nổi tiếng: nếu lấy vector của "vua", trừ đi "nam" và cộng "nữ", kết quả sẽ rất gần với vector của "hoàng hậu". Tương tự, "Việt Nam" + "tài chính" có thể cho vector gần "Ngân hàng Nhà nước".

Điều này cho phép AI thực hiện Semantic Search (tìm kiếm theo ngữ nghĩa): không cần từ khóa chính xác, chỉ cần ý nghĩa tương đồng. Các thuật toán như cosine similarity đo khoảng cách góc giữa hai vector để xác định độ tương đồng.

Contextual Embedding và sự tiến hóa

Công nghệ cũ như Word2Vec tạo Static Embedding: mỗi từ có một vector cố định dù ngữ cảnh thay đổi. Nhưng trong câu "tôi đi ngân hàng" và "tôi ngồi bên bờ ngân hàng", chữ "ngân hàng" hoàn toàn khác nghĩa.

Các mô hình hiện đại (BERT, GPT) sử dụng Contextual Embedding: vector của một từ được tính toán dựa trên toàn bộ câu văn xung quanh. Đây là lý do ChatGPT có thể phân biệt nghĩa đen và nghĩa bóng, hiểu được tiếng lóng và câu nói mỉa mai trong tiếng Việt.

Ví dụ thực tế

TikTok và thuật toán "hiểu" sở thích

Khi bạn xem video nấu ăn trên TikTok, hệ thống không chỉ ghi nhớ dòng chữ "#cooking". Nó chuyển nội dung video thành vector Embedding, đồng thời tạo vector cho sở thích của bạn dựa trên lịch sử xem. Hai vector này càng gần nhau, video càng được đề xuất lên đầu. Đây là lý do bạn thấy "đúng gu" ngay cả khi người đăng không dùng từ khóa mô tả rõ ràng.

Shopee tìm kiếm bằng hình ảnh

Bạn chụp ảnh chiếc váy hoa nhãn dán xem ở ngoài đường, upload lên Shopee. Hệ thống không đọc được chữ "váy hoa" trong ảnh mà sử dụng Multimodal Embedding: chuyển ảnh thành vector, so sánh với vector của hàng triệu sản phẩm trong kho. Kết quả trả về những món đồ tương tự về hình dáng, màu sắc, dù mô tả văn bản hoàn toàn khác nhau.

Grab xử lý địa chỉ Việt Nam

Địa chỉ ở Việt Nam cực kỳ hỗn loạn: "Highlands Nguyễn Trãi", "Highland Coffee 342 Nguyễn Trãi", "HLD Nguyễn Trãi" đều là một địa điểm. Grab sử dụng Entity Embedding để chuyển các biến thể tên đường, tên quán thành vector chuẩn hóa. Nhờ đó, tài xế được chỉ đến đúng điểm dù khách hàng viết tắt hay sai chính tả.

Ứng dụng

Sinh viên: Tìm kiếm tài liệu học thuật

Thay vì tìm từ khóa "machine learning" và bỏ sót những bài viết dùng thuật ngữ "học máy" hay "deep learning", sinh viên có thể dùng công cụ tìm kiếm ngữ nghĩa dựa trên Embedding. Hệ thống sẽ đề xuất cả những bài nói về "neural network", "pattern recognition" vì chúng nằm gần nhau trong không gian vector, giúp nghiên cứu toàn diện hơn.

Người đi làm: Phân loại và lọc thông tin

Nhân viên chăm sóc khách hàng có thể dùng Embedding để phân loại hàng nghìn email, comment Zalo Page theo sentiment: "sản phẩm chán" và "hàng dở tệ" có vector gần nhau, cùng thuộc nhóm tiêu cực dù từ vựng khác biệt. Marketing cũng dùng kỹ thuật này để gom nhóm khách hàng có sở thích tương đồng từ dữ liệu hành vi mua sắm.

Doanh nghiệp: Xây dựng hệ thống RAG

Khi triển khai chatbot nội bộ, doanh nghiệp chuyển toàn bộ tài liệu công ty (quy định, hợp đồng mẫu, FAQ) thành Embedding và lưu trong Vector Database. Khi nhân viên hỏi "thủ tục xin nghỉ phép", hệ thống không chỉ tìm từ khóa mà hiểu câu hỏi để truy xuất cả đoạn trong "policy leave" hay "quy định nhân sự 2024" — nền tảng của kỹ thuật RAG (Retrieval Augmented Generation) giúp LLM trả lời chính xác dựa trên dữ liệu nội bộ.

So sánh

Đặc điểm	One-Hot Encoding	Tìm kiếm từ khóa truyền thống	Embedding (Vector)
Cách biểu diễn	Vector cực lớn, toàn số 0 và một số 1	Chỉ mục từ khóa (inverted index)	Vector số thực dày đặc (dense)
Kích thước	Bằng số lượng từ vựng (hàng triệu chiều)	-	Nhỏ gọn (128-1536 chiều)
Ngữ nghĩa	Không có, mỗi từ độc lập	Phụ thuộc hoàn toàn từ khóa chính xác	Có, từ tương tự nằm gần nhau
Khả năng mở rộng	Kém, tốn bộ nhớ	Tốt cho dữ liệu có cấu trúc	Tốt cho dữ liệu phi cấu trúc
Tìm kiếm	Không thể tìm tương tự	Chính xác từ khóa hoặc substring	Tìm theo ý nghĩa (semantic search)

Embedding không thay thế hoàn toàn cơ sở dữ liệu truyền thống hay tìm kiếm từ khóa, mà bổ sung khả năng "hiểu ngữ cảnh" mà các phương pháp kỹ thuật cũ không thể đạt được. Đây là lý do các ứng dụng AI hiện đại có thể xử lý ngôn ngữ tự nhiên một cách linh hoạt như con người.