Files
wiki/entities/gemini-2-5-flash.md
T
2026-06-12 19:26:55 +02:00

3.7 KiB

title, created, updated, type, tags, sources, confidence, contested
title created updated type tags sources confidence contested
Gemini 2.5 Flash 2026-06-11 2026-06-11 entity
model
architecture
agent
multimodal
https://ai.google.dev/gemini-api/docs/models/gemini-2.5-flash
https://docs.cloud.google.com/gemini-enterprise-agent-platform/models/gemini/2-5-flash
https://cloud.google.com/gemini-enterprise-agent-platform/generative-ai/pricing
https://developers.googleblog.com/en/gemini-2-5-thinking-model-updates/
https://blog.google/innovation-and-ai/models-and-research/google-deepmind/google-gemini-updates-io-2025/
medium false

Gemini 2.5 Flash

Modèle propriétaire de Google DeepMind orienté prix / performances, officialisé en preview au printemps 2025 puis rendu stable en juin 2025. Gemini 2.5 Flash sert de modèle de travail rapide pour les tâches à gros volume, faible latence et usage agentique avec raisonnement activable.

Spécifications

Champ Valeur
Éditeur Google DeepMind / Google AI
Identifiant API gemini-2.5-flash
Statut Stable / GA depuis le 17 juin 2025
Fenêtre de contexte 1 048 576 tokens en entrée
Sortie max 65 536 tokens
Modalités Texte, image, audio, vidéo → texte
Cutoff de connaissance Janvier 2025
Outils function-calling, structured outputs, code execution, file search, search grounding, URL context, Google Maps grounding
Tarification standard entrée texte/image/vidéo $0.30/M tokens; entrée audio $1/M; sortie texte $2.50/M

Architecture

  • Type : modèle propriétaire de type transformer-architecture au sein de la famille Gemini 2.5.
  • Raisonnement hybride : Google le décrit comme le premier Flash doté de capacités de thinking, avec possibilité d'ajuster le budget de réflexion.
  • Orientation produit : compromis explicite entre vitesse, coût et qualité, pour servir d'outil de production généraliste à grande échelle.
  • Outillage : supporte function-calling, code execution, sorties structurées et intégrations agentiques compatibles avec des workflows mcp-protocol.
  • Multimodalité : même socle d'entrée multimodale que Pro, mais positionné pour l'inférence haut débit, la synthèse, la classification et le traitement applicatif.

Performances

  • Google présente 2.5 Flash comme son meilleur modèle price-performance pour les tâches à faible latence nécessitant quand même du raisonnement.
  • Lors de l'update I/O 2025, Google indiquait des gains sur le raisonnement, la multimodalité, le code et le long context.
  • La même communication précise que la version mise à jour utilise 20 à 30% de tokens en moins dans les évaluations internes de Google.
  • La release stable de juin 2025 a supprimé la distinction tarifaire thinking vs non-thinking, rendant le modèle plus simple à opérer en production.
  • Flash vise les assistants applicatifs, orchestrateurs d'outils, pipelines de recherche, extraction d'information et usages massifs en concurrence plus économique avec claude-4, gpt-5 et qwen-3-7.

Licence & Disponibilité

  • Licence : propriétaire, pas de poids ouverts.
  • Disponibilité : Gemini API, Google AI Studio, Vertex AI / Agent Platform, Gemini app.
  • Versions : alias stable gemini-2.5-flash; disponibilité GA annoncée le 17 juin 2025.
  • Fonctions supportées : Batch API, context caching, priority inference, file search, grounding web/cartes; Live API non supportée pour cette variante standard.
  • Cycle de vie : la documentation Google Cloud annonce une fin de support pas avant le 16 octobre 2026.

Pages Liées

claude-4 gpt-5 qwen-3-7 mcp-protocol function-calling transformer-architecture embeddings