Технология • 23 Шілде, 2024

ChatGPT-дің қазақша баламасы

198 рет
көрсетілді
5 мин
оқу үшін

Жаһанды қызықтырған жасанды интеллектінің қарқыны күннен-күнге күшейіп келеді. Сұрағаныңды лезде тауып беретін, мәтін жазудың қыр-сырын мейлінше меңгерген, тіпті жарамсыз деген шығарманың өзін бар қатесінен арылтып, мінсіз қалыпқа түсіре алатын бағдарламалар халықтың қажетіне жарап-ақ тұр. Бір қынжылтатыны, жасанды зерде қазақ тіліне әлі де шорқақтау. Дегенмен ізденіс бар. Мәселен, Назарбаев университеті жанындағы ақылды жүйелер және жасанды интеллект институты (ISSAI) қазақ тілінің ауқымды моделін (LLM) дайындап жатыр. Бұны ChatGPT-дің қазақша баламасы десек те болады. Аталған жоба елімізде және Орталық Азияда жасанды интеллект мүмкіндіктерін дамытуға арналған.

ChatGPT-дің қазақша баламасы

Қазақ тіліндегі алғашқы «Kaz-LLM» моделі биыл 16 желтоқсанда көпші­лікке таныстырылады. Аталған жүйе с­ұрақ қоюшы тараптың сауалдарына қазақ­ша сауатты һәм сапалы жауап береді. ­Одан бөлек, бұл бағдарлама орыс, ағыл­шын және түрік тілінде еркін сұхбаттаса алады.

«Кейінгі 5 жылда ISSAI қазақ тіліне қатысты көптеген дерек жинағын әзір­леді. Бұл жобаны биыл сәуірде қолға алдық. Енді осы жылдың қыркүйек айын­да деректерді жинау жұмысын аяқ­таймыз. Бізге берілген тапсырма – жобаны модель ретінде жасау еді. Одан әрі қазақ тілінің ауқымды моделін Цифрлық даму, инновациялар және аэроғарыш өнеркәсібі министрлігі жүзеге асырады. «Kaz-LLM» моделін Тәуелсіздік күніне орай желтоқсанда қалың жұртқа жария­лаймыз», деді Назарбаев университеті Ақылды жүйелер және жасанды интеллект институты (ISSAI) директорының операциялық қызметтер жөніндегі орынбасары Ербол Абсалямов.

Бұдан бөлек, ISSAI институты мем­лекеттік тілге қатысты тағы бірнеше жобаны ұсынып отыр. Соның бірі – «Umay». Бұл – қазақ тілінде еркін сөйлейтін вир­туалды көмекші. Оның мүмкіндігі бірнеше саланы қамтиды. Атап айтсақ, ғылым, тарих, технология, денсаулық сақтау салаларындағы сұрақтарға еркін жауап береді.

«Қазақ тіліндегі үлкен тілдік модель «KazLLM» 100 млрд токенге негізделе­тін болады. Токен – деректерді бағалау бірлігі, ол сөз немесе сөздің бөлігі болуы мүмкін. Әлемдік трендтер көрсетіп отырғандай, әртүрлі чат-боттарға немесе «Алиса» мен «Alexa» сияқты ассистенттерге үйренген болсақ та, болашақта компьютерлермен қарым-қатынасымыз дәл осындай форматқа өтеді. Яғни бара-бара виртуалды аватарлармен сөйлесеміз. Біз оларды тек бизнесте, банктерде ғана емес, халыққа қызмет көрсету орталықтарында кездестіретін боламыз», деді ISSAI деректер талдаушысы Мәдина Әбдірахманова.

ISSAI жетекшісі, Назарбаев уни­верситетінің Инженерлік және цифрлық ғылымдар мектебінің профессоры Атакан Варолдың айтуынша, бұрын үлкен деректер жиынтығының жеткіліксіз болуы қазақ тілін цифрлы әлемде шектейтін еді. Енді екі мыңнан астам адамның үш жүз сағаттық жазбасын жинау нәтижесінде қазақша сөзді автоматты түрде тану жобасы іске қосылды.

«Жобаның нәтижесі «KazLLM» мо­делін құру болғанымен, ең басты мақ­сатымыз – еліміздегі жасанды интел­лект саласындағы озық өнімдерді жасау­ға қабілетті мамандардың ғылы­ми тобын қалыптастыру. Яғни біз отан­дық зияткерлік күштің, атап айтқанда шағын «ISSAI» командасының озық мүмкіндіктерін көрсете алуымыз керек. Ғалымдарымыз цифрландыру жүйе­сінде әлемдік бәсекеге ілесе алатынын іс жүзінде көрсете білуге тиіс. «Umay» жұмысында біздің институт әзір­леген бірқатар негізгі технологияларды қолданады. Атап айтсақ, мәтін сөзін түрлендіріп, даусын құбылта алады. Сондай-ақ шынайы бейнедегі жасанды интеллектінің негізінде нейро­машиналық аударма жасайды», деді профессор.

«Umay» жүйесін ашып айтсақ, ол OpenAI платформасының ChatGPT чат-боты арқылы сұрақтарға жауап табады. Содан соң, Назарбаев университе­тінде ISSAI әзірлеген «Tilmash» нейро­машиналық аудармасының жетілдіріл­ген үлгісін пайдаланады. Сонда бұл жүйе пайдаланушылардың сұрақтарын алдымен ағылшын тіліне аударып, кейін ChatGPT берген жауаптарды қайтадан қазақ тіліне аударады. Нақтырақ айтсақ, «Tilmash» – қазақ, орыс, ағылшын, түрік, татар және өзбек тілдеріне екі жақты аударма жасауға мүмкіндік беретін жоба. Әртүрлі стильдегі үлкен мәтіндік қор­дан құрастырылған бұл жүйе «Google» және «Yandex» аудармашыларымен бәсе­келесе алады.

Бүгінгі ақпарат заманында қазақшаға жетік «Kaz-LLM», «Tilmash», «Umay» секілді бағдарламалар қоғамға қажет-ақ. Осындай жасанды интеллект арқылы озық зерттеулер жүргізіп жүрген «Ақылды жүйелер және жасанды интеллект институты» (ISSAI) еліміздің цифр­лық саласындағы зерттеулер мен инновациялардың орталығы ретінде 2019 жылдың қыркүйегінде құрылған еді. Айта кетейік, ISSAI – Азия, Еуропа және Америка Құрама Штаттарының үлгілерін ескере отырып, жасанды интеллект саласындағы ұлттық әлеуетті да­мытуға бағытталған.