Yous
Yous: Toplantılar, Çağrılar ve Sohbetler için Yapay Zeka Çevirmeni
Whisper, derin öğrenme modelleri kullanarak konuşulan dili gerçek zamanlı olarak yazıya döken, çeviren ve tanımlayan OpenAI tarafından geliştirilen açık kaynaklı bir konuşma tanıma sistemidir.
Whisper, OpenAI tarafından geliştirilen genel amaçlı bir konuşma tanıma modelidir. Transformatör tabanlı bir diziden diziye mimarisi üzerine kurulu olan bu model, geniş ve çeşitli ses veri kümeleri üzerinde eğitilerek konuşmadan metne, çeviri ve konuşma dili algılama gibi görevlerde yüksek performans sağlar.
MIT lisansı altında yayınlanan Whisper, tamamen açık kaynaklıdır ve geliştiriciler, araştırmacılar ve kuruluşlar için ücretsiz olarak kullanılabilir. Geniş ve aktif bir katılımcı tabanıyla GitHub'daki en popüler konuşma tanıma araçlarından biri haline gelmiştir.
Whisper, İngilizce, Japonca, İspanyolca, Fransızca ve daha fazlası dahil olmak üzere çok çeşitli dilleri transkripsiyon için destekler. Konuşulan içeriği doğru bir şekilde transkribe edebilir, bu da onu çok dilli uygulamalar ve küresel erişilebilirlik projeleri için uygun hale getirir.
Whisper, transkripsiyonun yanı sıra, bir ses dosyasının dilini işlemeden önce otomatik olarak algılayabilir. Bu özellik, karma dilli ses dosyalarını işlemesi veya uluslararası kullanıcıları desteklemesi gereken uygulamalar için değerlidir.
Whisper, basit bir komut satırı bayrağı ekleyerek İngilizce olmayan konuşmaları doğrudan İngilizceye çevirebilir. Bu sayede altyazı, seslendirme çevirisi veya içerik yerelleştirmesi oluşturmak için kullanışlı hale gelir.
Whisper, özel belirteçler kullanarak birden fazla konuşma işleme görevini paralel olarak gerçekleştirir ve ayrı modellere olan ihtiyacı ortadan kaldırır. Sanal asistanlar, medya transkripsiyonu, erişilebilirlik araçları ve dil öğrenme uygulamaları gibi ses tabanlı uygulamalar için idealdir.
Whisper, hız, bellek kullanımı ve doğruluk açısından farklılıklar gösteren Küçük'ten Büyük'e kadar altı model boyutu sunar. Kullanıcılar, kullanım durumlarına ve donanım sınırlamalarına bağlı olarak yalnızca İngilizce ve çok dilli modeller arasında seçim yapabilirler.
Large-v3'ün bir çeşidi olan Turbo modeli, minimum doğruluk kaybıyla önemli ölçüde daha hızlı işleme sunar. Hızın öncelikli olduğu üretim ortamları için optimize edilmiştir.
Whisper, PyPI ve GitHub üzerinden kullanılabilir. Hızlı transkripsiyonlar için doğrudan komut satırından kullanılabilir veya daha özel iş akışları için Python uygulamalarına entegre edilebilir. API, dil algılama, ses kod çözme ve tam transkripsiyon iş akışları için işlevler içerir.
Windows, macOS ve Linux desteği ve PyTorch, ffmpeg ve OpenAI'nin tokenizer kütüphanesi gibi bağımlılıklarla Whisper, çeşitli sistemler ve ortamlarda kullanıma hazır.