🧠 Phi-4

SLM (Small Language Model) de pointe développé par Microsoft Research. Successeur de phi-3-5, avec 14B paramètres et un focus sur la qualité des données d'entraînement plutôt que la quantité. Idéal pour le déploiement edge et les environnements contraints.

Spécifications

Version	Paramètres	Contexte	Entraînement	Usage
Phi-4	14B	16K (4K→16K mid-training)	~9,8T tokens	Edge, raisonnement, code

Architecture

Dense decoder-only Transformer — architecture proche de Phi-3 Medium.
Tokenizer : tiktoken (vocabulaire 100 352 tokens), meilleur support multilingue.
Attention full sur 4K (pas de sliding window comme Phi-3).
Données : Mélange de données synthétiques haute qualité ("textbook-like"), données web filtrées, livres académiques, datasets Q&A.
Pas de distillation : Phi-4 surpasse son professeur GPT-4 en STEM — preuve que les techniques de data-generation vont au-delà de la distillation.
Entraînement : 1 920 GPU H100-80G, 21 jours, ~9,8T tokens. Cutoff juin 2024.
Post-training : SFT + DPO pour alignment et safety.
Multilingue : ~8% des données d'entraînement.

Performances

Excellents résultats en raisonnement STEM (maths, code, science).
Surpasse GPT-4o-mini sur plusieurs benchmarks malgré sa taille 14B.
Très compétitif face aux modèles 7B-14B sur les tâches de raisonnement.
Idéal pour fine-tuning sur tâches spécialisées.

Licence & Disponibilité

Licence MIT — permissive, libre pour usage commercial, modification et redistribution.
Sortie : 12 décembre 2024.
Format : BF16 (Safetensors, ~15B params).
Disponible sur Hugging Face (microsoft/phi-4), Azure AI Foundry.

Pages Liées

phi-3-5 — prédécesseur
gguf — quantification pour déploiement edge
exl2 — quantification alternative
gemma-4 — concurrent Google (E2B/E4B edge)

2.1 KiB Raw Blame History