Scaling AI System

Chiến lược mở rộng hệ thống AI xử lý hàng triệu request: từ song song hóa mô hình đến tối ưu chi phí vận hành quy mô lớn cho doanh nghiệp.

Định nghĩa

Scaling AI system (mở rộng quy mô hệ thống AI) là quá trình thiết kế và triển khai kiến trúc cơ sở hạ tầng để hệ thống AI có thể xử lý khối lượng công việc tăng trưởng—từ hàng nghìn lên hàng triệu request, từ model nhỏ lên model tỷ parameter—mà vẫn duy trì độ trễ thấp, chi phí hợp lý và độ tin cậy cao.

Giải thích chi tiết

Chiều dọc và chiều ngang (Vertical vs Horizontal Scaling)

Có hai chiến lược cơ bản để tăng capacity. Vertical scaling (scale-up) là nâng cấp phần cứng máy chủ hiện có—lắp thêm GPU mạnh hơn (H100 thay vì A100), tăng RAM, dùng SSD nhanh hơn. Cách này đơn giản về mặt triển khai nhưng nhanh chóng đụng giới hạn vật lý (không thể lắp vô hạn GPU vào một máy) và chi phí tăng theo cấp số nhân (GPU đời mới thường đắt gấp 3-5 lần nhưng hiệu năng chỉ tăng 30-50%).

Horizontal scaling (scale-out) là thêm nhiều máy tính vào cluster. Thay vì một máy khổng lồ, ta dùng 100 máy nhỏ hơn. Đòi hỏi kiến thức distributed systems, load balancing, và xử lý lỗi (fault tolerance), nhưng khả năng mở rộng gần như vô hạn và chi phí tăng tuyến tính.

Song song hóa trong huấn luyện và suy luận

Khi model vượt quá kích thước bộ nhớ của một GPU (thường 40-80GB), cần chia nhỏ công việc:

Data Parallelism: Chia mini-batch dữ liệu ra nhiều GPU, mỗi GPU giữ bản sao đầy đủ của model. Phù hợp khi model vừa (dưới 7B parameters) nhưng dataset khổng lồ.
Model Parallelism: Chia layer của model ra nhiều GPU. Ví dụ: layer 1-10 chạy trên GPU 1, layer 11-20 trên GPU 2. Cần thiết cho LLM 70B+ parameters.
Pipeline Parallelism: Kết hợp cả hai—chia model thành các stage, mỗi stage chạy trên nhiều GPU với data parallelism.

Trong inference (suy luận), kỹ thuật continuous batching (batching động) giúp gom nhiều request của người dùng vào một batch để tận dụng tối đa GPU memory bandwidth, tăng throughput lên 10-20 lần so với xử lý tuần tự.

Tối ưu hóa kiến trúc suy luận

Scaling không chỉ là thêm phần cứng mà còn là tối ưu phần mềm:

Quantization: Giảm độ chính xác số học từ FP32 (32-bit) xuống INT8 hoặc INT4. Model 13B parameters quantized chỉ cần 7-8GB VRAM thay vì 26GB, cho phép chạy trên GPU rẻ tiền hoặc tăng batch size gấp đôi.
KV-Cache Optimization: Lưu trữ key-value vectors của attention mechanism để không tính lại cho các token đã sinh ra, giảm latency 30-50% cho generation dài.
Speculative Decoding: Dùng model nhỏ (draft model) sinh ra 5-10 token tạm, rồi model lớn (target model) kiểm tra và sửa lại. Tận dụng khả năng parallel verification của GPU để tăng tốc inference 2-3 lần.

Phân tán địa lý và Edge AI

Với user ở Việt Nam, gọi API đến server Singapore mất 50-100ms latency chỉ cho network round-trip. Geo-distributed scaling đặt inference cluster tại Hà Nội, HCM, Đà Nẵng—gần người dùng hơn. Kết hợp với edge caching cho các embedding phổ biến (sản phẩm hot, câu hỏi FAQ) giảm tải cho origin server.

Chiến lược tiết kiệm chi phí

Spot Instances: Dùng GPU dư thừa của AWS/GCP giá rẻ hơn 70%, chấp nhận rủi ro bị thu hồi instance bất cứ lúc nào. Phù hợp cho training job có thể checkpoint và resume.
Auto-scaling: Kubernetes HPA (Horizontal Pod Autoscaler) tự động tăng pod inference từ 10 lên 200 khi CPU/GPU utilization vượt 70%, rồi scale down lúc nửa đêm khi traffic thấp.
Model Cascading: Chuyển câu hỏi đơn giản sang model nhỏ (DistilBERT 66M parameters), chỉ dùng GPT-4 cho câu phức tạp. Tiết kiệm 60-80% compute cost.

Ví dụ thực tế

Shopee trong ngày siêu sale: Hệ thống recommendation phải xử lý 100.000 requests/giây trong 5 phút đầu flash sale. Họ dùng Redis cluster để cache embedding của 10.000 sản phẩm hot nhất (chiếm 80% lượt tìm kiếm), kết hợp horizontal scaling với Kubernetes để tự động tăng pod chứa model embedding từ 10 lên 200 instance. Kết quả: latency giữ dưới 100ms dù traffic tăng gấp 50 lần.

Grab tính ETA giờ cao điểm: Mô hình dự đoán thời gian giao hàng phải xử lý dữ liệu real-time từ hàng triệu xe. Thay vì một datacenter trung tâm, Grab triển khai inference cluster tại 3 điểm edge ở Việt Nam (Hà Nội, HCM, Đà Nẵng). Mỗi cluster chạy model quantized INT8 trên GPU T4 (rẻ hơn A100 5 lần) đủ để xử lý traffic khu vực. Latency giảm từ 200ms xuống 40ms.

Tiki Chatbot xử lý đợt khách hàng: Khi triển khai trợ lý ảo cho tổng đài, hệ thống phải xử lý song song hàng nghìn cuộc hội thoại. Họ áp dụng microservices architecture—tách embedding service (lưu cache vector database) và generation service (LLM). Dùng load balancer phân phối request theo cơ chế least-connections thay vì round-robin, tránh tình trạng một GPU bị quá tải trong khi GPU khác nhàn rỗi.

Ứng dụng

Sinh viên nghiên cứu: Khi chạy thí nghiệm deep learning trên cluster GPU của trường, cần hiểu distributed training với PyTorch DDP (DistributedDataParallel) hoặc FSDP (Fully Sharded Data Parallel) để huấn luyện model 7B-13B parameters không bị out-of-memory. Biết cách checkpoint để tránh mất tiến độ khi một node bị lỗi.

Kỹ sư phần mềm: Thiết kế microservices cho AI API—tách biệt service xử lý ảnh (CV), service NLP, và service database. Áp dụng circuit breaker pattern để khi model service quá tải, hệ thống trả về kết quả cache thay vì crash toàn bộ ứng dụng.

Doanh nghiệp startup & SME: Tính toán unit economics ($/1.000 requests) để quyết định giữa self-hosted (thuê GPU server) vs managed API (OpenAI, Claude). Với sản phẩm có 10.000 users, self-hosted trên cloud GPU thường rẻ hơn 3-5 lần so với gọi commercial API, nhưng đòi hỏi kỹ năng scaling và DevOps.

So sánh

Tiêu chí	Scaling Chiều dọc (Vertical)	Scaling Chiều ngang (Horizontal)
Cách thức	Nâng cấp CPU/GPU/RAM máy chủ hiện có	Thêm nhiều máy chủ vào cluster
Giới hạn	Bị giới hạn phần cứng (max 8 GPU/máy)	Gần như không giới hạn
Chi phí	Tăng nhanh (non-linear, GPU đắt tiền)	Tăng tuyến tính (thêm node rẻ)
Độ phức tạp	Đơn giản (chỉ thay phần cứng)	Cao (cần distributed systems, load balancer)
Chịu lỗi	Thấp (single point of failure)	Cao (một node chết vẫn chạy)
Use case	Prototype, model nhỏ (< 10B params)	Production, traffic cao, model lớn

Kết luận: Hệ thống AI production hiện đại thường dùng hybrid approach—vertical scaling đến giới hạn của một node (ví dụ 8xA100), sau đó horizontal scaling để mở rộng cluster khi cần xử lý hàng triệu users.