يقوم معهد Indian Intelligence في الصين ببناء مجموعة متعددة اللغات بشكل مستقل
في السنوات الأخيرة ، مع التطور السريع للذكاء الاصطناعي وتكنولوجيا معالجة اللغة الطبيعية ، أصبح بناء مجموعة متعددة اللغات أساسًا مهمًا لتعزيز التواصل عبر اللغة والابتكار التكنولوجي. أعلن معهد أبحاث آسيان للبحوث في الصين (المشار إليه فيما يلي باسم "المعهد") مؤخرًا أنه قام بنجاح ببناء مجموعة متعددة اللغات تغطي اللغات الرئيسية لبلدان الرابطة العشر ، بهدف تعزيز قابلية التشغيل البيني للغة والنشر الثقافي والتعاون التكنولوجي الذكي بين الصين ودول الرابطة في آسيا.
لا يملأ بناء هذه المجموعة الفجوة في مجال الموارد اللغوية متعددة اللغات فحسب ، بل يوفر أيضًا دعم بيانات عالي الجودة لتطبيقات الذكاء الاصطناعي مثل الترجمة الآلية والتعرف على الكلام وتحليل النص. فيما يلي نظرة عامة على الميزات الرئيسية وبيانات هذه المجموعة:
أنواع اللغة | مقياس كوربوس (100 مليون كلمة) | مناطق التغطية | مصدر البيانات |
---|---|---|---|
الصينية | 50 | الأخبار والقانون والعلوم والأدب | المنشورات العامة ، وثائق الحكومة |
التايلاندية | 12 | وسائل التواصل الاجتماعي ، الأخبار ، السفر | توفرها مؤسسات تزحف الشبكة والتعاون |
الفيتنامي | 10 | الاقتصاد والثقافات والتعليم | الأوراق الأكاديمية ، وسائل الإعلام الإخبارية |
الملايو | 8 | العمل ، القانون ، المحادثات اليومية | تعاون الشركات ، وكالة الترجمة |
إندونيسي | 8 | الأخبار ووسائل التواصل الاجتماعي والأفلام والتلفزيون | مجموعات البيانات العامة ، تزحف الشبكة |
سيناريوهات تطبيق Corpus
يوفر بناء هذه المجموعة الدعم الأساسي للتطبيقات في مجالات متعددة ، بما في ذلك:
1.الترجمة الآلية: من خلال مجموعة متوازية متعددة اللغات عالية الجودة ، قام المعهد بتدريب نموذج ترجمة يدعم أزواج اللغة مثل الصينية والإنجليزية والسلوبون الصيني والفيتنام الصينية ، وتحسنت دقة الترجمة بشكل كبير.
2.التعرف على الصوت: توفر البيانات الصوتية في المجموعة مواد تدريبية لأنظمة التعرف على الكلام في دول الآسيان ، مما يساعد على تطوير تطبيقات مثل مساعدي الصوت الأذكياء وأنظمة خدمة العملاء.
3.استرجاع المعلومات عبر اللغة: يمكن للمستخدمين البحث في المحتوى المرتبط بلغات الآسيان من خلال الكلمات الرئيسية الصينية ، مما يسهل بشكل كبير البحث الأكاديمي واكتساب المعلومات التجارية.
4.التواصل والبحث الثقافي: يوفر المحتوى الأدب والأفلام والتلفزيون في المجموعة العلماء الثقافيين مواد تحليلية غنية وتعزيز التبادلات الثقافية بين الصين ودول الآسيان.
التخطيط في المستقبل
قال المعهد إن الحجم واللغة في المجموعة سيتم توسيع نطاقه في المستقبل ، ويخطط لتشمل المزيد من لغات الآسيان الصغيرة مثل البورمية والكمبودية. في الوقت نفسه ، سيتعاون المعهد مع المؤسسات والمؤسسات الأكاديمية في بلدان الآسيان للترويج للمشاركة المفتوحة للجسم والمساهمة في أبحاث ذكاء اللغة العالمية.
إن بناء هذه المجموعة متعددة اللغات ليس فقط إنجازًا مهمًا لمجلة المعهد الصيني لاستخبارات اللغة ، ولكنه يوفر أيضًا دعمًا قويًا للتشغيل البيني للغة والتعاون التقني بموجب مبادرة "الحزام والطريق". مع التقدم المستمر لتكنولوجيا الذكاء الاصطناعي ، ستكون آفاق تطبيق مجموعة متعددة اللغات أوسع.
تحقق من التفاصيل
تحقق من التفاصيل