Refraction
Outil de génération et de refactorisation de code basé sur l'IA
StarCoder is a powerful 15B parameter model trained on 80+ programming languages. Generate, complete, or fill in the middle of code with high accuracy using Hugging Face’s open-source model.
StarCoder est un modèle de langage de grande taille développé par le projet BigCode, conçu pour générer et compléter du code source dans plus de 80 langages de programmation. Avec 15,5 milliards de paramètres et une approche axée sur l'apprentissage par remplissage intermédiaire, StarCoder prend en charge les tâches avancées de génération de code et aide les développeurs à réaliser des complétions contextuelles de haute qualité.
Conçu pour fonctionner efficacement sur du matériel moderne et déployé via Hugging Face, StarCoder est accessible à la fois aux développeurs recherchant une assistance de code et aux chercheurs évaluant des modèles de codage open source.
StarCoder a été entraîné sur le jeu de données dédupliqué The Stack (v1.2) et inclut du code provenant de plus de 80 langages de programmation. Que vous travailliez en Python, JavaScript, C++ ou des langages spécialisés, le modèle s'adapte à votre environnement.
Contrairement à la génération traditionnelle de gauche à droite, StarCoder prend en charge les tâches de remplissage au milieu (FIM). Cela permet aux développeurs d'insérer des blocs de code manquants entre des sections existantes, améliorant ainsi la flexibilité de la saisie semi-automatique et de la génération d'extraits.
StarCoder utilise l'architecture GPT-2 avec Multi-Query Attention et une grande fenêtre contextuelle de 8 192 jetons. Optimisé pour la compréhension et la génération de séquences de code longues et structurées, il est idéal pour les tâches de développement logiciel concrètes.
Formé sur plus de 1 000 milliards de jetons, StarCoder a été développé à l'aide de 512 GPU A100 sur un cycle d'entraînement de 24 jours. L'ensemble de données a été filtré pour exclure le contenu non autorisé et inclure uniquement le code sous licence permissive.
StarCoder peut générer de nouvelles fonctions, compléter du code inachevé et aider à l'écriture de code standard ou répétitif. C'est un outil utile pour le prototypage, l'apprentissage et l'automatisation des workflows de développement.
En tant que modèle en libre accès sous la licence BigCode OpenRAIL-M, StarCoder est idéal pour la recherche universitaire, l'analyse comparative et la création d'applications en aval pour les tâches de codage.
Les développeurs peuvent utiliser StarCoder directement via Hugging Face Transformers en quelques lignes de code seulement. L'application est entièrement accessible grâce à l'accélération GPU pour un déploiement local ou cloud.
StarCoder est publié sous licence BigCode OpenRAIL-M. Bien que les données d'entraînement proviennent de code sous licence ouverte, il est de la responsabilité des utilisateurs de garantir l'attribution correcte et le respect des conditions de licence lors de l'utilisation du code généré.
Un index consultable est disponible pour retracer l'origine de tous les segments de code générés, permettant aux développeurs de fournir une attribution appropriée si nécessaire.
StarCoder a démontré de solides performances sur les benchmarks de codage, notamment:
Ces scores mettent en évidence l’efficacité du modèle dans les tâches de programmation à usage général.