SLM (Small Language Model) de pointe développé par Microsoft Research. Successeur de phi-3-5, avec 14B paramètres et un focus sur la qualité des données d'entraînement plutôt que la quantité. Idéal pour le déploiement edge et les environnements contraints.
Spécifications
Version
Paramètres
Contexte
Entraînement
Usage
Phi-4
14B
16K (4K→16K mid-training)
~9,8T tokens
Edge, raisonnement, code
Architecture
Dense decoder-only Transformer — architecture proche de Phi-3 Medium.
Tokenizer : tiktoken (vocabulaire 100 352 tokens), meilleur support multilingue.
Attention full sur 4K (pas de sliding window comme Phi-3).
Données : Mélange de données synthétiques haute qualité ("textbook-like"), données web filtrées, livres académiques, datasets Q&A.
Pas de distillation : Phi-4 surpasse son professeur GPT-4 en STEM — preuve que les techniques de data-generation vont au-delà de la distillation.