Yous
Yous: मीटिंग, कॉल और चैट के लिए AI अनुवादक
व्हिस्पर, ओपनएआई द्वारा निर्मित एक ओपन-सोर्स स्पीच रिकग्निशन सिस्टम है, जो डीप लर्निंग मॉडल का उपयोग करके वास्तविक समय में बोली जाने वाली भाषा का लिप्यंतरण, अनुवाद और पहचान करता है।
व्हिस्पर, ओपनएआई द्वारा विकसित एक सामान्य-उद्देश्य वाक् पहचान मॉडल है। ट्रांसफ़ॉर्मर-आधारित अनुक्रम-से-अनुक्रम आर्किटेक्चर पर निर्मित, यह विशाल और विविध ऑडियो डेटासेट पर प्रशिक्षित है, जिससे वाक्-से-पाठ, अनुवाद और मौखिक भाषा पहचान जैसे कार्यों में उच्च प्रदर्शन संभव होता है।
एमआईटी लाइसेंस के तहत जारी, व्हिस्पर पूरी तरह से ओपन सोर्स है और डेवलपर्स, शोधकर्ताओं और संगठनों के लिए मुफ़्त में उपलब्ध है। यह गिटहब पर सबसे लोकप्रिय स्पीच रिकग्निशन टूल्स में से एक बन गया है, जिसके एक बड़े और सक्रिय योगदानकर्ता आधार के साथ।
व्हिस्पर ट्रांसक्रिप्शन के लिए अंग्रेज़ी, जापानी, स्पेनिश, फ़्रेंच आदि सहित कई भाषाओं का समर्थन करता है। यह बोली जाने वाली सामग्री को सटीक रूप से ट्रांसक्राइब कर सकता है, जिससे यह बहुभाषी अनुप्रयोगों और वैश्विक एक्सेसिबिलिटी परियोजनाओं के लिए उपयुक्त हो जाता है।
ट्रांसक्रिप्शन के अलावा, व्हिस्पर प्रोसेसिंग से पहले ऑडियो फ़ाइल की भाषा का स्वतः पता लगा सकता है। यह सुविधा उन अनुप्रयोगों के लिए उपयोगी है जिन्हें मिश्रित-भाषा ऑडियो को संभालने या अंतर्राष्ट्रीय उपयोगकर्ताओं का समर्थन करने की आवश्यकता होती है।
एक साधारण कमांड-लाइन फ़्लैग जोड़कर, व्हिस्पर गैर-अंग्रेज़ी भाषा का सीधे अंग्रेज़ी में अनुवाद कर सकता है। यह इसे उपशीर्षक बनाने, वॉइस-ओवर अनुवाद या सामग्री स्थानीयकरण के लिए उपयोगी बनाता है।
व्हिस्पर विशेष टोकन का उपयोग करके समानांतर रूप से कई स्पीच-प्रोसेसिंग कार्य करता है, जिससे अलग-अलग मॉडलों की आवश्यकता समाप्त हो जाती है। यह वर्चुअल असिस्टेंट, मीडिया ट्रांसक्रिप्शन, एक्सेसिबिलिटी टूल्स और भाषा सीखने वाले ऐप्स जैसे वॉयस-आधारित अनुप्रयोगों के लिए आदर्श है।
व्हिस्पर छह मॉडल साइज़ प्रदान करता है—छोटे से लेकर बड़े तक—जिनमें गति, मेमोरी उपयोग और सटीकता में अंतर होता है। उपयोगकर्ता अपने उपयोग के मामले और हार्डवेयर सीमाओं के आधार पर केवल अंग्रेज़ी और बहुभाषी मॉडल में से चुन सकते हैं।
टर्बो मॉडल, जो लार्ज-वी3 का एक प्रकार है, न्यूनतम सटीकता हानि के साथ काफ़ी तेज़ प्रोसेसिंग प्रदान करता है। यह ऐसे उत्पादन परिवेशों के लिए अनुकूलित है जहाँ गति को प्राथमिकता दी जाती है।
व्हिस्पर PyPI और GitHub के माध्यम से उपलब्ध है। इसे त्वरित ट्रांसक्रिप्शन के लिए सीधे कमांड लाइन से इस्तेमाल किया जा सकता है या अधिक कस्टम वर्कफ़्लो के लिए पायथन अनुप्रयोगों में एकीकृत किया जा सकता है। API में भाषा पहचान, ऑडियो डिकोडिंग और पूर्ण ट्रांसक्रिप्शन वर्कफ़्लो के लिए फ़ंक्शन शामिल हैं।
विंडोज, मैकओएस और लिनक्स के लिए समर्थन और PyTorch, ffmpeg और OpenAI की टोकनाइज़र लाइब्रेरी जैसी निर्भरताओं के साथ, व्हिस्पर विभिन्न प्रणालियों और वातावरणों में तैनात करने के लिए तैयार है।