Технология • 03 Ақпан, 2023

Түркі тілдерін танитын технология

415 рет
көрсетілді
3 мин
оқу үшін

Жүре берсең, көре бересің деген рас екен. Nazarbayev University-нің ғалымдары түркі тілдерін танитын технология ойлап тауыпты. Тың технология адамдардың қай тілде сөйлесіп отырғанын әп-сәтте-ақ анықтап береді. Қазақшадан бөлек, тағы 9 түркі тілін танитыны қандай тамаша?!

Түркі тілдерін танитын технология

Қысқасы, жаңа технология адамның сөйлеген сөзін мәтінге айналдырып отырады. Бұл үшін Siri және Alexa дауыстық көмекшілері, виртуалды ассистенттер және дауыс жүйелерінің үлгісі пайдаланылады. Осылайша, Nazarbayev University-не қарасты ақылды жүйелер мен жасанды интеллект институтының (NU ISSAI) ғалымдары қазақ, әзер­бай­жан, башқұрт, өзбек, қыр­ғыз, саха, татар, түрік, ұйғыр және чуваш тілдерін танитын жаңа модель әзірлеп шы­ғарды. Бұған қоса технология ағылшын және орыс тілдерін де «таниды».

– Біздің мақсатымыз – айтылған сөзді тану моделін әзірлеу. Өйткені интернетте түркі тілдеріне арналған қолжетімді сөйлеу деректері өте аз. Түркі тілдерінің жалпы ерекшеліктерін лексика, фонология және морфология тұрғысынан пайдалана отырып, он түркі тілі бір-бірін өзара толықтыратын, алғашқы жалпы әрі сенімді көптілді модель жасағымыз келді, – дейді NU ISSAI деректер талдаушысы Саида Мұсаходжаева.

Айтылған сөзді тану үдері­сінде технология өте аз қате жіберетін көрінеді. «Баш­құрт, қазақ, татар, түрік, ұйғыр және өзбек тілдері үшін сим­вол­дардағы қателіктердің үлесі 5 пайыздан аз. Моде­ліміз түркі тілдерінің ұқ­сас­­тығын пайдаланады. Егер әрбір тіл үшін жеке мо­дель жасайтын болсақ, қазір­­гідей нәтижелерге қол жеткізе алмас едік», дей­ді университеттің 4-курс студенті Қайсар Дәулетбек.

NU ISSAI жасаған көптілді модельді институттың сайтында еркін тестілеуге болады. Жобада пайдаланылған модельдер, дерекқорлар және кодтар қолжетімді.

– Бұл жобалардың ең маңызды нәтижесі жоғары білікті техникалық сарап­шы­ларды даярлау болды деп есептейміз. Олар Қазақ­стан­ның технологиялық дамуын ынталандырып қана қой­май, болашақ ұрпақ үшін тың мүмкіндіктер жасайды. Сондай-ақ олар технологияларды басқа елдерде ілгерілету үшін өзінің кәсіби білімі мен тәжірибесін бөлісуге әрі қолдануға дайын болады, – дейді ISSAI негізін қалаушы-директоры, университет профессоры Хусейн Атакан Варол.

Институт ғалымдары ашық бастапқы коды бар қа­зақ тілінің алғашқы корпус­тарын (KSC және KSC2) құр­ған. Сонымен қатар ашық бастапқы коды бар қазақ тіліндегі мәтінді сөйлем ретінде айтуға арналған корпустарды (KazakhTTS және kazakhtts2) әзірлеп шығар. Аталған нысандарды қазақ тілінде тануға арналған ең ірі ашық деректер жиынтығын (KazNERD) құруда да айтар­лықтай табысқа жетіп отыр.

– Институт цифрлық әлем­де қазақ тілін ілгерілетуге айтарлықтай күш салып отыр. Сондай-ақ біздің институт тіл мен сөз технологияларына деген қызығушылығын басқа түркі тілдеріне де бағыттамақ. Институт түркі әлемі мен Еу­ра­зиядағы жасанды интеллект және деректер туралы ғы­лымның жетекші ғылыми орта­­лықтарының біріне айналады, – дейді профессор Варол.