Refraction
KI-gestütztes Tool zur Codegenerierung und Refactoring
StarCoder is a powerful 15B parameter model trained on 80+ programming languages. Generate, complete, or fill in the middle of code with high accuracy using Hugging Face’s open-source model.
StarCoder ist ein umfangreiches Sprachmodell des BigCode-Projekts, das Quellcode in über 80 Programmiersprachen generiert und vervollständigt. Mit 15,5 Milliarden Parametern und einem Fokus auf Fill-in-the-Middle-Training unterstützt StarCoder fortgeschrittene Codegenerierungsaufgaben und unterstützt Entwickler mit hochwertigen, kontextsensitiven Vervollständigungen.
StarCoder wurde für den effizienten Betrieb auf moderner Hardware konzipiert und wird über Hugging Face bereitgestellt. Es ist sowohl für Entwickler zugänglich, die Unterstützung beim Code suchen, als auch für Forscher, die Open-Source-Codierungsmodelle evaluieren.
StarCoder wurde mit dem deduplizierten Datensatz «The Stack» (v1.2) trainiert und enthält Code aus über 80 Programmiersprachen. Egal, ob Sie mit Python, JavaScript, C++ oder Nischensprachen arbeiten, das Modell passt sich Ihrer Umgebung an.
Im Gegensatz zur herkömmlichen Generierung von links nach rechts unterstützt StarCoder Fill-in-the-Middle-Aufgaben (FIM). Dies ermöglicht Entwicklern, fehlende Codeblöcke zwischen bestehenden Abschnitten einzufügen, was die Flexibilität der Autovervollständigung und Snippet-Generierung erhöht.
StarCoder verwendet die GPT-2-Architektur mit Multi-Query Attention und einem großen Kontextfenster mit 8192 Token. Es ist für das Verstehen und Generieren langer, strukturierter Codesequenzen optimiert und eignet sich daher ideal für reale Softwareentwicklungsaufgaben.
StarCoder wurde mit über einer Billion Tokens trainiert und mithilfe von 512 A100-GPUs über einen 24-tägigen Trainingszyklus entwickelt. Der Datensatz wurde gefiltert, um Opt-out-Inhalte auszuschließen und enthält ausschließlich permissiv lizenzierten Code.
StarCoder kann neue Funktionen generieren, unfertigen Code vervollständigen und beim Schreiben von Boilerplate-Code oder repetitiver Logik unterstützen. Es ist ein hilfreiches Tool für Prototyping, Lernen und die Automatisierung von Entwicklungsabläufen.
Als Open-Access-Modell unter der BigCode OpenRAIL-M-Lizenz eignet sich StarCoder ideal für die akademische Forschung, Benchmarking und die Erstellung nachgelagerter Anwendungen für Codierungsaufgaben.
Entwickler können StarCoder mit nur wenigen Codezeilen direkt über Hugging Face Transformers nutzen. Dank GPU-Beschleunigung ist die Anwendung für die lokale oder Cloud-Bereitstellung vollständig zugänglich.
StarCoder wird unter der BigCode OpenRAIL-M-Lizenz veröffentlicht. Die Trainingsdaten stammen aus offen lizenziertem Code. Die Benutzer sind jedoch für die korrekte Zuordnung und die Einhaltung der Lizenzanforderungen bei der Verwendung des generierten Codes verantwortlich.
Um den Ursprung aller generierten Codesegmente zu ermitteln, steht ein durchsuchbarer Index zur Verfügung, sodass Entwickler bei Bedarf eine korrekte Zuordnung vornehmen können.
StarCoder hat bei Codierungs-Benchmarks eine starke Leistung gezeigt, darunter:
Diese Ergebnisse unterstreichen die Wirksamkeit des Modells bei allgemeinen Programmieraufgaben.