Ақпараттық және есептеуіш технологиялар институты бас директорының ғылым жөніндегі орынбасары, PhD Өркен Мамырбаевтың жетекшілігімен жүзеге асқан ІТ жоба қазақ тілін технология тілімен байланыстыра отырып, дыбыстану үрдісін жеңілдетуге мүмкіндік береді. Қазіргі кезде гранттық қаржыландыру бағдарламаcы аясында жүзеге асқан жобаға әлемдік компания қызығушылық білдіріп отыр.
Өркен Мамырбаев докторантурада оқып жүргенде осы жобаны іске асыру туралы ойы болғанын айтады. Уақыт өте қоғамда оған деген қажеттілік арта түсті. Ал диссертациялық жұмыс барысында жобаны дамыта келіп, сөйлеу үрдісіне қосымша жасап шығару қажеттігі туып отыр. Нәтижесінде, 8 ғалымнан тұратын жұмыс тобы гранттық жобалар конкурсына қатысып, жасанды интеллекті арқылы сөйлеутану үрдісін жүзеге асырған болатын. Ө.Мамырбаевтың айтуынша, екі бөлімнен тұратын, яғни онлайн, офлайн жұмыс істейтін қосымша жасап шығарудың технологиялық тұрғыдан өз қиыншылықтары бар. Дыбыстарды мәтінге айналдыру, яғни жүйені түзудегі басты мәселе сөйлеу корпусы деректерін әзірлеумен байланысты. Деректер көбейген сайын нейрожүйе үшін кез келген сөзді оқу мүмкіндігі кеңейе түседі. Егер корпус аз болса онда кейбір сөздерді оқу қиынға түседі. Kazak ASR дауыстық сигналдарды танып қана қоймай, мәтінге айналдыруымен ерекшеленеді. Мысалы, орыс, ағылшын, қытай көп ресурсты тілдерге жататын болса, қазақ тілі аз ресурсты тіл. Сондықтан оған қатысты көптеген сөйлеу мәліметтерін жинауға тура келді. Сөйлеу мәліметтерін жаңалықтардан, хабарлардан, әдеби жанрлардан жинап, сөйлеу корпусы құрылды. Бастапқыда 32, 76 сағаттық корпус жинақталған болса, келесі үш жылдықта бұл көрсеткіш 2 мыңға жетті. Нәтижесінде, сөйлеутану үрдісі сапасы жағынан жақсара түскен. Осылайша корпус құрылғаннан кейін барып қосымша жасауға көштік», дейді Ө.Мамырбаев.
Әрі қарай бағдарлама құратын жастармен жұмыс, тестілеуден өткізу, сервер сияқты бірқатар қажеттіліктер туды. Бірнеше сатыдан өткеннен кейін барып, жобаны әрі қарай дамытуда, біріншіден, ғылыми жағына аса мән берілді. Ол әртүрлі модельдеу, есептеу, эксперимент жасаумен, халықаралық Scopus, Science журналдарында мақала жариялау, конференцияларда баяндама жасаумен байланысты болды. Нәтижесінде, осы модель негізінде қосымша әзірленді.
Ал келесі кезең Kazak ASR тілдік модельді танымал етумен байланысты. Бұл үшін телеграмм, уатсап сияқты әлеуметтік желілерде жариялау қажет. Ө.Мамырбаевтың айтуынша, Telegram-да чат-бот тегін қосымша жүйесін жасап шығару аса қиындық туғызбаған. Осы арқылы жобаның танымалдығы арта түседі әрі коммерциялануына да жол ашылады. Ендігі мүмкіндік жобаны жетілдіріп, тoolbox жасап, уатсап жүйесіне енгізу. Екінші жасалып жатқан «митинг» қосымшасы екі-үш адам кездескенде, автоматты түрде хаттама тұрғызатын жүйе болады. Құрылғы екі түрлі дауысты автоматты түрде таниды және екі бөлікте қазақ тіліндегі мәтінін көрсетеді. Мұндай микрофон ақпаратты мәтін түрінде сақтау қажет болуы мүмкін жиналыстар кезінде хаттамалар толтыру үшін пайдалы.
Коммерциялық негізде дамыту көзделіп отырғандықтан, қазіргі кезде бұл жобаға Philips ұсыныс жасады. Жаңа жүйе мен Philips диктофонын пайдалана отырып, автоматты түрде қазақша сөйлем барысын танып протокол құру көзделген. Қазір Philips өнімдеріне қазақ тілінде сөйлеуді тану технологиясын енгізу бойынша құжат әзірленіп, серіктестік пен өнімді одан әрі жетілдіру жұмыстары жалғасын табуда.
АЛМАТЫ