
تطبيع حتمي ومنخفض الكمون لـ ١٩ لغة هندية.
تطبيع النص الهندي
مكتبة شاملة قائمة على WFST مبنية على Pynini تحوّل الأرقام والتواريخ والعملات والقياسات والمزيد إلى شكل منطوق طبيعي. مصممة لـ أنظمة TTS وASR وNLP. امتداد لـ NVIDIA NeMo للغات الهندية.
لماذا لا نستخدم نموذج لغوي كبير؟
الاتجاه الحالي هو استخدام نموذج لغوي كبير لتطبيع النص. لكن ذلك يسبب تأخيراً كبيراً وعدم قابلية للتنبؤ في تطبيقات الصوت الفورية.
View on GitHubمتوسط زمن التطبيع
0ms
WFST deterministic traversal
vs. LLM approaches
LLM (محلي)
~500+ ms100x
LLM (API)
~2000+ ms400x
١ – ٥ مللي ثانية
اجتياز FST حتمي، وليس توليد رموز تراجعي.
حتمي
نفس المدخلات، نفس المخرجات. بدون هلوسة أو ضبط حرارة.
معالج فقط
لا حاجة لوحدة معالجة رسومية. انشر في أي مكان ببنية تحتية بسيطة.
مُجرَّب في الإنتاج
نشأ من احتياجات TTS الفوري مع Svara، محرك TTS الهندي من كينباث.
١٩ لغة مدعومة
اختر لغة لرؤية كيف يُنطق "٢٥".
معاينة التطبيع
हिन्दी
Hindi
25→पच्चीस
١٢ فئة سيميائية
كل وحدة لغوية تحوّل هذه الأشكال المكتوبة إلى مكافئاتها المنطوقة.
الأعداد الأصلية
25 → पच्चीस
الأعداد الترتيبية
3rd → तीसरा
الأعداد العشرية
3.14 → तीन दशमलव एक चार
الكسور
½ → आधा
التواريخ
15/08/2024 → पंद्रह अगस्त
الوقت
10:30 → साढ़े दस बजे
الهاتف
9876 → नौ आठ सात छह
القياسات
5kg → पांच किलोग्राम
العملات
₹500 → पांच सौ रुपये
البريد والروابط
URLs, emails, hashtags
الأرقام الرومانية
IV → चार
الاختصارات
Dr. → डॉक्टर
البدء السريع
ثلاثة أسطر من الكود. نفس الواجهة لجميع ١٩ لغة.
example.py
1from indic_text_normalization import Normalizer23# Initialize normalizer for Hindi4normalizer = Normalizer(input_case='cased', lang='hi')56# Normalize text7text = "मैं 25 साल का हूं और मेरा फोन नंबर 9876543210 है।"8normalized = normalizer.normalize(text)9print(normalized)10# → मैं पच्चीस साल का हूं और मेरा फोन नंबर11# नौ आठ सात छह पांच चार तीन दो एक शून्य है।
خط أنابيب WFST
حتمي وقابل للتفسير وقابل للتتبع بالكامل في كل خطوة.
Extension of NVIDIA NeMo for Indic languages
1
التقسيم
تقسيم المدخلات إلى رموز
2
التصنيف
تحديد الفئة السيميائية
3
النطق
التحويل إلى الشكل المنطوق
4
المعالجة النهائية
التنظيف والتنسيق
مثال
₹500 देने हैं
money { currency: ₹ amount: 500 }
पांच सौ रुपये देने हैं
ابدأ المساهمة
مفتوح المصدر بموجب Apache 2.0. مبني على NVIDIA NeMo Text Processing.
Built on NVIDIA NeMo Text Processing
$ git clone https://github.com/kenpath/indic-text-normalization.gitتحتاج تطبيع نصوص لخط أنابيب اللغات الهندية؟ تواصل معنا