TROISINH
AI Chat & Tìm kiếmGoogle Gemini

Sử dụng tính năng multimodal

Hướng dẫn sử dụng tính năng multimodal của Gemini để phân tích đồng thời ảnh, video, PDF và audio. Tích hợp với Google Drive, Gmail để xử lý tài liệu thực tế.

Giới thiệu

Gemini là AI native multimodal — nghĩa là mô hình được xây dựng để hiểu đồng thời văn bản, hình ảnh, âm thanh, video và tài liệu ngay từ đầu, thay vì ghép nối thêm module xử lý riêng lẻ như cách AI truyền thống vẫn làm. Bạn có thể upload một file PDF hợp đồng, chụp ảnh biểu đồ, hoặc gửi link video YouTube vào cùng một cuộc hội thoại, để Gemini phân tích mối liên hệ giữa chúng.

Cách thức hoạt động

Upload file trực tiếp

Trong giao diện chat Gemini (cả web và app), bạn click biểu tượng dấu + bên trái ô nhập liệu hoặc kéo thả trực tiếp:

  • Ảnh: JPG, PNG, WebP, HEIC (tối đa 50MB)
  • Tài liệu: PDF, TXT, DOCX, CSV (đọc được cả file nhiều trang)
  • Video: MP4, MOV, AVI (hỗ trợ tới 1 giờ, Gemini Advanced)
  • Audio: MP3, WAV, OGG (tự động transcribe và phân tích ngữ cảnh)

Điểm khác biệt: Gemini không chỉ "nhìn thấy" file mà còn liên kết ngữ cảnh. Ví dụ: bạn upload ảnh chụp slide báo cáo tài chính + file Excel số liệu gốc, Gemini có thể chỉ ra ngay cột nào trong ảnh bị tính sai so với dữ liệu gốc.

Phân tích đa chiều trong Workspace

Khi dùng Gemini trong Google Workspace (tính năng Gemini Workspace), khả năng multimodal mở rộng sang hệ sinh thái Google:

  • Gmail: Click vào email có đính kèm PDF → chọn "Tóm tắt email này" → Gemini đọc luôn nội dung file đính kèm, không cần download về.
  • Google Drive: Chọn nhiều file (PDF + Slides + Sheets) → yêu cầu "So sánh nội dung 3 file này và liệt kê mâu thuẫn về số liệu".
  • Docs: Chèn ảnh chụp biên lai vào tài liệu → nhờ Gemini trích xuất thông tin vào bảng.

Ví dụ thực tế

Phân tích hợp đồng PDF + tra cứu pháp lý

Input: Upload file hop-dong-thue-nha.pdf (10 trang) + prompt: "Kiểm tra điều khoản thanh toán và đặt cọc. So sánh với Luật Nhà ở 2023 có điểm nào bất lợi cho bên thuê không?"

Output: Gemini trả về 3 điểm rủi ro cụ thể: (1) Mức đặt cọc 3 tháng vi phạm quy định tối đa 2 tháng, (2) Không quy định thời hạn hoàn trả khi chấm dứt hợp đồng, (3) Phạt vi phạm cao hơn khung pháp luật cho phép. Kèm theo đề xuất sửa đổi từng điều khoản.

Tái tạo UI từ screenshot

Input: Ảnh chụp màn hình dashboard Analytics của đối thủ + prompt: "Viết code HTML/CSS dùng Tailwind để tái tạo layout này, responsive cho mobile. Focus vào phần biểu đồ và bảng dữ liệu."

Output: Code hoàn chỉnh với grid layout, màu sắc tương đồng, và giải thích cách chia component để dễ maintain. Bạn có thể copy chạy thử ngay.

Tóm tắt video bài giảng thành slide

Input: Link YouTube bài giảng 45 phút về Machine Learning (hoặc upload file video) + prompt: "Tóm tắt thành 5 điểm chính và đề xuất cấu trúc 7 slide Google Slides để thuyết trình lại."

Output: Bullet points từng phần + gợi ý nội dung từng slide (Slide 1: Title với hook, Slide 2: Định nghĩa với diagram...). Bạn chỉ việc click "Tạo trong Slides" nếu đang dùng Gemini Workspace.

Ứng dụng theo đối tượng

Sinh viên & Nghiên cứu sinh

  • Đọc paper nhanh: Upload 2 file PDF nghiên cứu cùng lúc → yêu cầu "So sánh phương pháp của 2 paper này, paper A dùng CNN còn paper B dùng Transformer, ưu nhược điểm từng cái?"
  • Giải bài tập từ ảnh: Chụp ảnh đề bài viết tay hoặc sách giấy → Gemini giải thích từng bước giải, không chỉ đưa đáp án.
  • Phân tích dữ liệu thực nghiệm: Upload ảnh chụp kết quả thí nghiệm (biểu đồ từ máy đo) + file raw data CSV để kiểm tra tính nhất quán.

Người đi làm (Marketing, Sales, BA)

  • Content repurposing: Upload video webinar dài 1 tiếng → yêu cầu "Tạo 5 quote graphic cho LinkedIn + 3 kịch bản Reels 60 giây từ nội dung chính".
  • Xử lý hóa đơn: Chụp ảnh biên lai cà phê với khách hàng → Gemini trích xuất số tiền, tên công ty, ngày tháng và tự động nhập vào Google Sheets expense tracker.
  • Phân tích đối thủ: Chụp ảnh quảng cáo đối thủ trên Facebook + upload file brief sản phẩm nội bộ → Gemini phân tích messaging gap và đề xuất góc tiếp cận khác biệt.

Doanh nghiệp & Product Manager

  • Review UI/UX: Upload ảnh prototype Figma + screenshot luồng user flow → yêu cầu feedback về accessibility và điểm friction trong trải nghiệm.
  • Meeting intelligence: Upload file recording họp (audio hoặc video) → Gemini extract action items, phân loại theo owner, và tự động tạo task trong Google Tasks/Asana.
  • Due diligence: Phân tích đồng thời 10 file tài liệu công ty mục tiêu (PDF báo cáo tài chính, ảnh chụp sổ sách, audio ghi âm phỏng vấn) để tìm red flags.

So sánh với ChatGPT và Claude

Tiêu chíGeminiChatGPT (GPT-4o)Claude
Kiến trúc xử lýNative multimodal (xử lý song song)Vision + Language modules riêngArtifacts riêng cho file
File PDFTrực tiếp, không giới hạn số trang rõ rệtCần GPT-4, giới hạn ngữ cảnhUpload riêng, xử lý tốt với text dài
VideoHỗ trợ trực tiếp (Gemini Advanced)Không hỗ trợ upload videoKhông hỗ trợ video
Tích hợp DriveNative, mở file trực tiếpCần plugin hoặc download thủ côngKhông có tích hợp sẵn
Dữ liệu real-timeCó (Google Search)Cutoff knowledge dateCutoff knowledge date
AudioTranscribe + phân tích ngữ cảnhWhisper API riêngKhông hỗ trợ audio input

Kết luận: Chọn Gemini khi workflow của bạn nặng về Google Workspace, cần xử lý video dài hoặc file đính kèm email, hoặc cần thông tin cập nhật real-time kèm phân tích đa phương tiện. ChatGPT phù hợp hơn nếu bạn cần ecosystem rộng với plugins, còn Claude tốt hơn cho reasoning sâu với tài liệu văn bản phức tạp.

Bài viết liên quan

Cùng cụm (Gemini)

Đọc tiếp

On this page