Refraction
Инструмент генерации и рефакторинга кода на основе искусственного интеллекта
StarCoder is a powerful 15B parameter model trained on 80+ programming languages. Generate, complete, or fill in the middle of code with high accuracy using Hugging Face’s open-source model.
StarCoder — это большая языковая модель, созданная проектом BigCode, предназначенная для генерации и завершения исходного кода на более чем 80 языках программирования. Благодаря 15,5 миллиардам параметров и фокусировке на обучении методом заполнения в середине StarCoder поддерживает сложные задачи генерации кода и помогает разработчикам с высококачественными, контекстно-зависимыми завершениями.
Разработанный для эффективной работы на современном оборудовании и развертываемый с помощью Hugging Face, StarCoder доступен как разработчикам, нуждающимся в помощи с кодом, так и исследователям, оценивающим модели кодирования с открытым исходным кодом.
StarCoder был обучен на дедуплицированном наборе данных The Stack (v1.2) и включает код из более чем 80 языков программирования. Независимо от того, работаете ли вы на Python, JavaScript, C++ или нишевых языках, модель может адаптироваться к вашей среде.
В отличие от традиционной генерации слева направо, StarCoder поддерживает задачи fill-in-the-middle (FIM). Это позволяет разработчикам вставлять недостающие блоки кода между существующими разделами, повышая гибкость автодополнения и генерации фрагментов.
StarCoder использует архитектуру GPT-2 с Multi-Query Attention и большим контекстным окном на 8192 токена. Он оптимизирован для понимания и генерации длинных структурированных последовательностей кода, что делает его идеальным для реальных задач по разработке программного обеспечения.
Обученный на более чем 1 триллионе токенов, StarCoder был создан с использованием 512 графических процессоров A100 в течение 24-дневного цикла обучения. Набор данных был отфильтрован для исключения контента с опцией «отказаться» и включает только разрешенный лицензированный код.
StarCoder может генерировать новые функции, завершать незаконченный код и помогать в написании шаблонной или повторяющейся логики. Это полезный инструмент для прототипирования, обучения и автоматизации рабочих процессов разработки.
Будучи моделью с открытым доступом по лицензии BigCode OpenRAIL-M, StarCoder идеально подходит для академических исследований, сравнительного анализа и создания приложений для задач кодирования.
Разработчики могут использовать StarCoder напрямую через Hugging Face Transformers всего с несколькими строками кода. Он полностью доступен с ускорением GPU для локального или облачного развертывания.
StarCoder выпускается под лицензией BigCode OpenRAIL-M. Хотя данные для обучения были получены из кода с открытой лицензией, пользователи несут ответственность за обеспечение надлежащего указания авторства и соблюдение требований лицензии при использовании сгенерированного кода.
Для отслеживания происхождения любых сгенерированных сегментов кода доступен поисковый индекс, что позволяет разработчикам при необходимости указывать правильное авторство.
StarCoder продемонстрировал высокие результаты в тестах кодирования, включая:
Эти оценки подчеркивают эффективность модели при решении задач программирования общего назначения.