Қысқасы, жаңа технология адамның сөйлеген сөзін мәтінге айналдырып отырады. Бұл үшін Siri және Alexa дауыстық көмекшілері, виртуалды ассистенттер және дауыс жүйелерінің үлгісі пайдаланылады. Осылайша, Nazarbayev University-не қарасты ақылды жүйелер мен жасанды интеллект институтының (NU ISSAI) ғалымдары қазақ, әзербайжан, башқұрт, өзбек, қырғыз, саха, татар, түрік, ұйғыр және чуваш тілдерін танитын жаңа модель әзірлеп шығарды. Бұған қоса технология ағылшын және орыс тілдерін де «таниды».
– Біздің мақсатымыз – айтылған сөзді тану моделін әзірлеу. Өйткені интернетте түркі тілдеріне арналған қолжетімді сөйлеу деректері өте аз. Түркі тілдерінің жалпы ерекшеліктерін лексика, фонология және морфология тұрғысынан пайдалана отырып, он түркі тілі бір-бірін өзара толықтыратын, алғашқы жалпы әрі сенімді көптілді модель жасағымыз келді, – дейді NU ISSAI деректер талдаушысы Саида Мұсаходжаева.
Айтылған сөзді тану үдерісінде технология өте аз қате жіберетін көрінеді. «Башқұрт, қазақ, татар, түрік, ұйғыр және өзбек тілдері үшін символдардағы қателіктердің үлесі 5 пайыздан аз. Моделіміз түркі тілдерінің ұқсастығын пайдаланады. Егер әрбір тіл үшін жеке модель жасайтын болсақ, қазіргідей нәтижелерге қол жеткізе алмас едік», дейді университеттің 4-курс студенті Қайсар Дәулетбек.
NU ISSAI жасаған көптілді модельді институттың сайтында еркін тестілеуге болады. Жобада пайдаланылған модельдер, дерекқорлар және кодтар қолжетімді.
– Бұл жобалардың ең маңызды нәтижесі жоғары білікті техникалық сарапшыларды даярлау болды деп есептейміз. Олар Қазақстанның технологиялық дамуын ынталандырып қана қоймай, болашақ ұрпақ үшін тың мүмкіндіктер жасайды. Сондай-ақ олар технологияларды басқа елдерде ілгерілету үшін өзінің кәсіби білімі мен тәжірибесін бөлісуге әрі қолдануға дайын болады, – дейді ISSAI негізін қалаушы-директоры, университет профессоры Хусейн Атакан Варол.
Институт ғалымдары ашық бастапқы коды бар қазақ тілінің алғашқы корпустарын (KSC және KSC2) құрған. Сонымен қатар ашық бастапқы коды бар қазақ тіліндегі мәтінді сөйлем ретінде айтуға арналған корпустарды (KazakhTTS және kazakhtts2) әзірлеп шығар. Аталған нысандарды қазақ тілінде тануға арналған ең ірі ашық деректер жиынтығын (KazNERD) құруда да айтарлықтай табысқа жетіп отыр.
– Институт цифрлық әлемде қазақ тілін ілгерілетуге айтарлықтай күш салып отыр. Сондай-ақ біздің институт тіл мен сөз технологияларына деген қызығушылығын басқа түркі тілдеріне де бағыттамақ. Институт түркі әлемі мен Еуразиядағы жасанды интеллект және деректер туралы ғылымның жетекші ғылыми орталықтарының біріне айналады, – дейді профессор Варол.