تطبيع النص الهندي
تطبيع حتمي ومنخفض الكمون لـ ١٩ لغة هندية.

تطبيع النص الهندي

مكتبة شاملة قائمة على WFST مبنية على Pynini تحوّل الأرقام والتواريخ والعملات والقياسات والمزيد إلى شكل منطوق طبيعي. مصممة لـ أنظمة TTS وASR وNLP. امتداد لـ NVIDIA NeMo للغات الهندية.

لماذا لا نستخدم نموذج لغوي كبير؟

الاتجاه الحالي هو استخدام نموذج لغوي كبير لتطبيع النص. لكن ذلك يسبب تأخيراً كبيراً وعدم قابلية للتنبؤ في تطبيقات الصوت الفورية.
View on GitHub

متوسط زمن التطبيع

0ms

WFST deterministic traversal

vs. LLM approaches

LLM (محلي)
~500+ ms100x
LLM (API)
~2000+ ms400x
١ – ٥ مللي ثانية

اجتياز FST حتمي، وليس توليد رموز تراجعي.

حتمي

نفس المدخلات، نفس المخرجات. بدون هلوسة أو ضبط حرارة.

معالج فقط

لا حاجة لوحدة معالجة رسومية. انشر في أي مكان ببنية تحتية بسيطة.

مُجرَّب في الإنتاج

نشأ من احتياجات TTS الفوري مع Svara، محرك TTS الهندي من كينباث.

١٩ لغة مدعومة

اختر لغة لرؤية كيف يُنطق "٢٥".
معاينة التطبيع
हिन्दी
Hindi
25पच्चीस

١٢ فئة سيميائية

كل وحدة لغوية تحوّل هذه الأشكال المكتوبة إلى مكافئاتها المنطوقة.
الأعداد الأصلية
25 → पच्चीस
الأعداد الترتيبية
3rd → तीसरा
الأعداد العشرية
3.14 → तीन दशमलव एक चार
الكسور
½ → आधा
التواريخ
15/08/2024 → पंद्रह अगस्त
الوقت
10:30 → साढ़े दस बजे
الهاتف
9876 → नौ आठ सात छह
القياسات
5kg → पांच किलोग्राम
العملات
₹500 → पांच सौ रुपये
البريد والروابط
URLs, emails, hashtags
الأرقام الرومانية
IV → चार
الاختصارات
Dr. → डॉक्टर

البدء السريع

ثلاثة أسطر من الكود. نفس الواجهة لجميع ١٩ لغة.
example.py
1from indic_text_normalization import Normalizer
2
3# Initialize normalizer for Hindi
4normalizer = Normalizer(input_case='cased', lang='hi')
5
6# Normalize text
7text = "मैं 25 साल का हूं और मेरा फोन नंबर 9876543210 है।"
8normalized = normalizer.normalize(text)
9print(normalized)
10# → मैं पच्चीस साल का हूं और मेरा फोन नंबर
11# नौ आठ सात छह पांच चार तीन दो एक शून्य है।

خط أنابيب WFST

حتمي وقابل للتفسير وقابل للتتبع بالكامل في كل خطوة.
Extension of NVIDIA NeMo for Indic languages
1
التقسيم
تقسيم المدخلات إلى رموز
2
التصنيف
تحديد الفئة السيميائية
3
النطق
التحويل إلى الشكل المنطوق
4
المعالجة النهائية
التنظيف والتنسيق
مثال
₹500 देने हैं
money { currency: ₹ amount: 500 }
पांच सौ रुपये देने हैं

ابدأ المساهمة

مفتوح المصدر بموجب Apache 2.0. مبني على NVIDIA NeMo Text Processing.

Built on NVIDIA NeMo Text Processing
$ git clone https://github.com/kenpath/indic-text-normalization.git

تحتاج تطبيع نصوص لخط أنابيب اللغات الهندية؟ تواصل معنا