Yous
Yous: ИИ-переводчик для встреч, звонков и чатов
Whisper — это система распознавания речи с открытым исходным кодом от OpenAI, которая транскрибирует, переводит и распознает устную речь в режиме реального времени, используя модели глубокого обучения.
Whisper — это универсальная модель распознавания речи, разработанная OpenAI. Она построена на архитектуре «последовательность-в-последовательность» на основе преобразователя и обучена на обширных и разнообразных наборах аудиоданных, обеспечивая высокую производительность при выполнении таких задач, как преобразование речи в текст, перевод и распознавание устной речи.
Whisper, выпущенный под лицензией MIT, имеет полностью открытый исходный код и доступен бесплатно разработчикам, исследователям и организациям. Он стал одним из самых популярных инструментов распознавания речи на GitHub с большой и активной базой разработчиков.
Whisper поддерживает широкий спектр языков для транскрибирования, включая английский, японский, испанский, французский и другие. Whisper способен точно транскрибировать устную речь, что делает его подходящим для многоязычных приложений и проектов по обеспечению доступности по всему миру.
Помимо транскрипции, Whisper может автоматически определять язык аудиофайла перед обработкой. Эта функция полезна для приложений, которым требуется обрабатывать аудиофайлы на разных языках или поддерживать работу с пользователями из разных стран.
Добавив простой флаг командной строки, Whisper может напрямую переводить неанглийскую речь на английский. Это делает его полезным для создания субтитров, закадрового перевода или локализации контента.
Whisper выполняет несколько задач обработки речи параллельно, используя специальные токены, устраняя необходимость в отдельных моделях. Он идеально подходит для голосовых приложений, таких как виртуальные помощники, транскрипция медиаконтента, инструменты доступности и приложения для изучения языков.
Whisper предлагает шесть размеров моделей — от крошечных до больших — с различными компромиссами в скорости, использовании памяти и точности. Пользователи могут выбирать между англоязычными и многоязычными моделями в зависимости от сценария использования и аппаратных ограничений.
Модель Turbo, являющаяся разновидностью large-v3, обеспечивает значительно более быструю обработку с минимальной потерей точности. Она оптимизирована для производственных сред, где скорость имеет первостепенное значение.
Whisper доступен через PyPI и GitHub. Его можно использовать непосредственно из командной строки для быстрой транскрипции или интегрировать в приложения Python для более пользовательских рабочих процессов. API включает функции для определения языка, декодирования аудио и полноценной транскрипции.
Благодаря поддержке Windows, macOS и Linux, а также таким зависимостям, как PyTorch, ffmpeg и библиотека токенизатора OpenAI, Whisper готов к развертыванию в различных системах и средах.