Sử dụng tính năng multimodal
Hướng dẫn sử dụng tính năng multimodal của Gemini để phân tích đồng thời ảnh, video, PDF và audio. Tích hợp với Google Drive, Gmail để xử lý tài liệu thực tế.
Giới thiệu
Gemini là AI native multimodal — nghĩa là mô hình được xây dựng để hiểu đồng thời văn bản, hình ảnh, âm thanh, video và tài liệu ngay từ đầu, thay vì ghép nối thêm module xử lý riêng lẻ như cách AI truyền thống vẫn làm. Bạn có thể upload một file PDF hợp đồng, chụp ảnh biểu đồ, hoặc gửi link video YouTube vào cùng một cuộc hội thoại, để Gemini phân tích mối liên hệ giữa chúng.
Cách thức hoạt động
Upload file trực tiếp
Trong giao diện chat Gemini (cả web và app), bạn click biểu tượng dấu + bên trái ô nhập liệu hoặc kéo thả trực tiếp:
- Ảnh: JPG, PNG, WebP, HEIC (tối đa 50MB)
- Tài liệu: PDF, TXT, DOCX, CSV (đọc được cả file nhiều trang)
- Video: MP4, MOV, AVI (hỗ trợ tới 1 giờ, Gemini Advanced)
- Audio: MP3, WAV, OGG (tự động transcribe và phân tích ngữ cảnh)
Điểm khác biệt: Gemini không chỉ "nhìn thấy" file mà còn liên kết ngữ cảnh. Ví dụ: bạn upload ảnh chụp slide báo cáo tài chính + file Excel số liệu gốc, Gemini có thể chỉ ra ngay cột nào trong ảnh bị tính sai so với dữ liệu gốc.
Phân tích đa chiều trong Workspace
Khi dùng Gemini trong Google Workspace (tính năng Gemini Workspace), khả năng multimodal mở rộng sang hệ sinh thái Google:
- Gmail: Click vào email có đính kèm PDF → chọn "Tóm tắt email này" → Gemini đọc luôn nội dung file đính kèm, không cần download về.
- Google Drive: Chọn nhiều file (PDF + Slides + Sheets) → yêu cầu "So sánh nội dung 3 file này và liệt kê mâu thuẫn về số liệu".
- Docs: Chèn ảnh chụp biên lai vào tài liệu → nhờ Gemini trích xuất thông tin vào bảng.
Ví dụ thực tế
Phân tích hợp đồng PDF + tra cứu pháp lý
Input: Upload file hop-dong-thue-nha.pdf (10 trang) + prompt: "Kiểm tra điều khoản thanh toán và đặt cọc. So sánh với Luật Nhà ở 2023 có điểm nào bất lợi cho bên thuê không?"
Output: Gemini trả về 3 điểm rủi ro cụ thể: (1) Mức đặt cọc 3 tháng vi phạm quy định tối đa 2 tháng, (2) Không quy định thời hạn hoàn trả khi chấm dứt hợp đồng, (3) Phạt vi phạm cao hơn khung pháp luật cho phép. Kèm theo đề xuất sửa đổi từng điều khoản.
Tái tạo UI từ screenshot
Input: Ảnh chụp màn hình dashboard Analytics của đối thủ + prompt: "Viết code HTML/CSS dùng Tailwind để tái tạo layout này, responsive cho mobile. Focus vào phần biểu đồ và bảng dữ liệu."
Output: Code hoàn chỉnh với grid layout, màu sắc tương đồng, và giải thích cách chia component để dễ maintain. Bạn có thể copy chạy thử ngay.
Tóm tắt video bài giảng thành slide
Input: Link YouTube bài giảng 45 phút về Machine Learning (hoặc upload file video) + prompt: "Tóm tắt thành 5 điểm chính và đề xuất cấu trúc 7 slide Google Slides để thuyết trình lại."
Output: Bullet points từng phần + gợi ý nội dung từng slide (Slide 1: Title với hook, Slide 2: Định nghĩa với diagram...). Bạn chỉ việc click "Tạo trong Slides" nếu đang dùng Gemini Workspace.
Ứng dụng theo đối tượng
Sinh viên & Nghiên cứu sinh
- Đọc paper nhanh: Upload 2 file PDF nghiên cứu cùng lúc → yêu cầu "So sánh phương pháp của 2 paper này, paper A dùng CNN còn paper B dùng Transformer, ưu nhược điểm từng cái?"
- Giải bài tập từ ảnh: Chụp ảnh đề bài viết tay hoặc sách giấy → Gemini giải thích từng bước giải, không chỉ đưa đáp án.
- Phân tích dữ liệu thực nghiệm: Upload ảnh chụp kết quả thí nghiệm (biểu đồ từ máy đo) + file raw data CSV để kiểm tra tính nhất quán.
Người đi làm (Marketing, Sales, BA)
- Content repurposing: Upload video webinar dài 1 tiếng → yêu cầu "Tạo 5 quote graphic cho LinkedIn + 3 kịch bản Reels 60 giây từ nội dung chính".
- Xử lý hóa đơn: Chụp ảnh biên lai cà phê với khách hàng → Gemini trích xuất số tiền, tên công ty, ngày tháng và tự động nhập vào Google Sheets expense tracker.
- Phân tích đối thủ: Chụp ảnh quảng cáo đối thủ trên Facebook + upload file brief sản phẩm nội bộ → Gemini phân tích messaging gap và đề xuất góc tiếp cận khác biệt.
Doanh nghiệp & Product Manager
- Review UI/UX: Upload ảnh prototype Figma + screenshot luồng user flow → yêu cầu feedback về accessibility và điểm friction trong trải nghiệm.
- Meeting intelligence: Upload file recording họp (audio hoặc video) → Gemini extract action items, phân loại theo owner, và tự động tạo task trong Google Tasks/Asana.
- Due diligence: Phân tích đồng thời 10 file tài liệu công ty mục tiêu (PDF báo cáo tài chính, ảnh chụp sổ sách, audio ghi âm phỏng vấn) để tìm red flags.
So sánh với ChatGPT và Claude
| Tiêu chí | Gemini | ChatGPT (GPT-4o) | Claude |
|---|---|---|---|
| Kiến trúc xử lý | Native multimodal (xử lý song song) | Vision + Language modules riêng | Artifacts riêng cho file |
| File PDF | Trực tiếp, không giới hạn số trang rõ rệt | Cần GPT-4, giới hạn ngữ cảnh | Upload riêng, xử lý tốt với text dài |
| Video | Hỗ trợ trực tiếp (Gemini Advanced) | Không hỗ trợ upload video | Không hỗ trợ video |
| Tích hợp Drive | Native, mở file trực tiếp | Cần plugin hoặc download thủ công | Không có tích hợp sẵn |
| Dữ liệu real-time | Có (Google Search) | Cutoff knowledge date | Cutoff knowledge date |
| Audio | Transcribe + phân tích ngữ cảnh | Whisper API riêng | Không hỗ trợ audio input |
Kết luận: Chọn Gemini khi workflow của bạn nặng về Google Workspace, cần xử lý video dài hoặc file đính kèm email, hoặc cần thông tin cập nhật real-time kèm phân tích đa phương tiện. ChatGPT phù hợp hơn nếu bạn cần ecosystem rộng với plugins, còn Claude tốt hơn cho reasoning sâu với tài liệu văn bản phức tạp.
Bài viết liên quan
Cùng cụm (Gemini)
- Bắt đầu với Google Gemini — Làm quen giao diện và các tính năng cơ bản
- Tích hợp Gemini với Google Workspace — Đi sâu về làm việc với Docs, Sheets, Gmail
- Dùng Gemini cho nghiên cứu sâu — Kỹ thuật tìm kiếm và tổng hợp thông tin chuyên sâu
- Tính năng nâng cao của Gemini — Gems, Extensions và các thiết lập chuyên nghiệp
Đọc tiếp
- ChatGPT Vision và GPT-4o — So sánh chi tiết khả năng xử lý ảnh của đối thủ chính
- Google Workspace AI — Tự động hóa workflow nâng cao trong hệ sinh thái Google (Level 3)
Bắt đầu với Google Gemini
Hướng dẫn sử dụng Google Gemini từ A-Z cho người mới. Khám phá lợi thế tích hợp Google Workspace và khả năng xử lý thông tin real-time miễn phí.
Tích hợp Gemini với Google Workspace
Hướng dẫn bật và dùng Gemini AI trực tiếp trong Google Docs, Sheets, Gmail và Slides. Tăng tốc công việc văn phòng với AI tích hợp sâu.