Cách dùng AI tạo ảnh

Hướng dẫn thực chiến tạo ảnh bằng Midjourney, DALL-E và Stable Diffusion. Từ prompt cơ bản đến workflow hoàn chỉnh giúp bạn có ảnh chất lượng cao ngay.

Định nghĩa

AI tạo ảnh là công nghệ biến mô tả văn bản (text prompt) thành hình ảnh thực tế thông qua các mô hình Diffusion như Midjourney, DALL-E hay Stable Diffusion. Khác với Photoshop truyền thống nơi bạn thao tác từng pixel, ở đây bạn mô tả ý tưởng bằng ngôn ngữ tự nhiên và AI sẽ "tưởng tượng" cũng như render ra kết quả từ noise ngẫu nhiên.

Giải thích chi tiết

Workflow chuẩn: Không phải "một lần là xong"

Người mới thường hiểu lầm rằng AI tạo ảnh là nhập một câu rồi có ngay kết quả đẹp. Thực tế, đây là quy trình lặp (iterative workflow):

Draft: Tạo 4 biến thể để chọn hướng đúng
Upscale: Phóng to ảnh chọn lọc
Vary: Tạo biến thể mới từ ảnh đã chọn hoặc Remix prompt
Inpaint/Outpaint: Sửa chi tiết lỗi hoặc mở rộng canvas

Ví dụ với Midjourney, bạn không dừng ở lệnh /imagine đầu tiên mà cần dùng các nút U (Upscale) và V (Variation) để tinh chỉnh.

Chọn công cụ theo mục đích

Không có công cụ nào tốt nhất cho mọi trường hợp:

Midjourney: Thiên về nghệ thuật, màu sắc, aesthetic. Tốt cho concept art, illustration, nhưng kém kiểm soát text và spatial relationship.
DALL-E 3: Hiểu prompt tự nhiên nhất, tốt cho người mới, nhưng ít tùy biến style. Tích hợp sẵn trong ChatGPT Plus.
Leonardo.ai/Playground: Linh hoạt hơn Midjourney, cho phép chọn nhiều model khác nhau, phù hợp game asset và character design.
Stable Diffusion (SDXL): Miễn phí, chạy local hoặc DreamStudio, kiểm soát cao nhất qua ControlNet nhưng cần kỹ thuật cao.

Cấu trúc prompt hiệu quả

Prompt tốt không phải câu dài mà là câu có cấu trúc:

[Subject] + [Environment/Context] + [Style/Medium] + [Lighting] + [Camera/Angle] + [Quality modifiers]

Ví dụ: "A Vietnamese street food vendor [Subject] selling banh mi in old quarter Hanoi [Environment], digital painting style reminiscent of Studio Ghibli [Style], golden hour lighting with warm shadows [Lighting], 35mm lens f/1.8 shallow depth of field [Camera], 8k resolution highly detailed [Quality]"

Negative prompt (cho Stable Diffusion/Leonardo) cũng quan trọng: "blurry, deformed hands, bad anatomy, watermark, signature"

Tinh chỉnh sau sinh (Post-generation)

AI thường sai tay, mặt, hoặc text. Các kỹ thuật fix:

Inpainting: Chọn vùng lỗi để AI vẽ lại (DALL-E editor, Photoshop Generative Fill, Stable Diffusion img2img)
Outpainting: Mở rộng ảnh ra ngoài khung hình gốc
ControlNet: Dùng sketch hoặc pose reference để ép AI theo composition cụ thể

Ví dụ thực tế

Thumbnail YouTube cho kênh review ẩm thực Việt Nam

Bạn làm kênh review quán ăn vặt Sài Gòn cần thumbnail thu hút:

Prompt: "Close-up of steaming Vietnamese banh canh cua crab noodle soup, wooden table background, vibrant food photography style, warm tungsten lighting from top left, Canon EOS R5 50mm lens f/2.8, shallow depth of field, steam rising naturally, 4k ultra detailed, appetizing colors --ar 16:9"

Workflow: Tạo 4 options → Chọn U2 → Upscale → Dùng Vary (Region) để sửa phần muỗng bị méo → Thêm text overlay bằng Canva.

Mockup sản phẩm cho shop thủ công mỹ nghệ trên Shopee

Bán lồng đèn giấy nhưng không có studio chụp ảnh:

Step 1: Chụp sản phẩm trên nền trắng đơn giản bằng điện thoại
Step 2: Dùng Remove.bg xóa phông
Step 3: Prompt trong DALL-E: "Lifestyle product photo, traditional Vietnamese paper lantern placed on rustic wooden table, Tet festival background with peach blossoms and red envelopes, soft natural window lighting, cozy home interior, 8k photorealistic"
Step 4: Composite sản phẩm thật vào background AI bằng Photoshop hoặc Photopea (miễn phí)

Concept nhân vật cho game indie Việt Nam

Làm game về sử thi Việt, cần design nhân vật Sơn Tinh:

Prompt 1 (Midjourney): "Full body character design, Vietnamese mountain god Son Tinh wearing traditional ao tu than mixed with rock armor, ancient bronze texture, holding jade axe, standing on mountain peak, Studio Ghibli meets Shadow of the Colossus style, character turnaround sheet --ar 16:9"
Prompt 2 (Variation): Tách riêng close-up mặt để xem expression
Prompt 3 (Leonardo): Dùng Alchemy mode để tạo nhiều góc độ nhất quán từ bản vẽ sketch đầu tay.

Ứng dụng theo đối tượng

Sinh viên và học sinh

Thuyết trình PowerPoint: Tạo infographic và illustration thay vì dùng ảnh stock generic. Ví dụ: minh họa "tác động của biến đổi khí hậu" bằng prompt "flooded Ho Chi Minh City street with floating lotus, surrealism art style" thay vì download ảnh cũ từ Google.
Poster sự kiện: CLB cần poster nhanh cho workshop, dùng Canva AI hoặc Leonardo để tạo background độc đáo rồi thêm thông tin sự kiện.

Người đi làm (Marketing, Content, UI/UX)

Content calendar: Tạo 30 ảnh cho bài đăng tháng Instagram mà không cần thuê photographer. Dùng bộ prompt nhất quán (consistent character/style) để tạo series.
Mockup nhanh: Designer UI cần screenshot app trên mockup iPhone đẹp, dùng Midjourney "/describe" ảnh tham khảo rồi tạo variation.
Thiết kế thử nghiệm: Làm 10 concept logo cho khách hàng xem trước khi vẽ tay bản chính thức (không dùng AI logo làm final product nếu cần bản quyền rõ ràng).

Doanh nghiệp nhỏ và startup

Brand asset: Tạo pattern/background cho website, thẻ nhân viên, bao bì sản phẩm. Ví dụ: quán cà phê cần pattern lá sen cho ly giấy, prompt "seamless pattern Vietnamese lotus leaves, watercolor style, pastel green, tileable texture".
Visualize sản phẩm tương lai: Startup công nghệ chưa có sản phẩm thật, dùng AI tạo concept render để gọi vốn (với disclaimer là "concept visualization").

So sánh các công cụ phổ biến

Công cụ	Điểm mạnh	Điểm yếu	Phù hợp cho
Midjourney v6	Aesthetic cao, màu đẹp, cộng đồng lớn	Kiểm soát kém, không hiểu spatial relationship tốt	Concept art, illustration, mood board
DALL-E 3	Hiểu prompt tự nhiên nhất, text trong ảnh tốt hơn	Ít tùy biến, style mặc định "an toàn"	Người mới, cần ảnh có chữ, brainstorming nhanh
Leonardo.ai	Nhiều model fine-tuned, tạo character consistent	Free tier giới hạn token	Game asset, anime style, character sheet
Stable Diffusion XL	Miễn phí, kiểm soát tuyệt đối qua ControlNet	Cần GPU mạnh hoặc setup phức tạp	Professional use, inpainting phức tạp, NSFW research
Adobe Firefly	Tích hợp Photoshop, commercial safe	Chất lượng thấp hơn Midjourney	Doanh nghiệp cần bản quyền rõ ràng 100%

Kết luận: Người mới nên bắt đầu với DALL-E 3 (qua ChatGPT) hoặc Midjourney để làm quen, sau đó chuyển Leonardo khi cần consistency cho series ảnh. Stable Diffusion chỉ nên dùng khi cần kiểm soát tuyệt đối hoặc làm việc với dữ liệu nhạy cảm (chạy local).