Университет • 18 Желтоқсан, 2024

«ISSAI KAZ-LLM» үлкен тілдік моделі әзірленді

113 рет
көрсетілді
3 мин
оқу үшін

Nazarbayev University-дің (NU) Ақылды жүйелер мен жасанды интеллект институтының (ISSAI) зерттеушілері оқу орнында өткен брифингте нейрондық желі негізінде әзірленген «ISSAI KAZ-LLM» қазақ тілінің үлкен тілдік моделін таныстырды. Бұл жоба – отандық жасанды интеллектінің әлемдік арена­дағы ықпалдастығын арттырудағы маңызды кезең саналады. Қыс­қаша айтқанда, қазақ тіліндегі «ChatGPT»-дің негізі деуге келеді.

«ISSAI KAZ-LLM» үлкен тілдік моделі әзірленді

Осы үлгіні қазақ тіліне аударма мен контент жасаудан бастап, көлемді мәтіндерді өңдеуге дейін қолдануға болады. «ISSAI KAZ-LLM» моделі қазақ, орыс және ағылшын тілдеріне арналып жасалған. Сондай-ақ түрік тілін қосымша қолдайды. Бір жағынан, бұл тілдік алшақтықты жойып, шектеулі ресурстарға ие тілдердегі генеративті жасанды интеллектінің дамуына мүмкіндік береді. Бұған біраз күш жұмсалды. «ISSAI» командасы аталған модельдің жақсы жұмыс істеуін қамтамасыз ету үшін 150 млрд-тан астам сөзді жинап, өңдеп, синтездеп, аударған. «ISSAI KAZ-LLM»-нің оқыту деңгейі өте жоғары. Былайша айтқанда, бұл модель жасанды интеллект саласындағы әлемдік көшбасшылармен бәсекеге еркін түсе алады.

Сонымен қатар «ISSAI KAZ-LLM» талантты адамдарға тәжірибе жинауға мүмкіндік беріп, еліміздегі жасанды интеллектіні дамыту аясын кеңейтеді. Бұл жоба озық жасанды интеллект құралын жасауға ғана емес, сондай-ақ осы салада отандық мамандар санын көбейтуге де ықпал етеді. Оны әзірлеу­ге отандық зерттеушілер қатысты. Әсіресе еліміздегі жетекші институттармен ық­палдастық лингвистердің және ма­шиналық аударманың озық әдіс­терінің көмегімен қазақ тіліне бейімделген салыстырмалы талдау құралдары мен деректер жиынтығын жасауға мүмкіндік берді.

Nazarbayev University мен NIS қаржыландырған жоба биыл сәуір айында басталды. Барлық дерек қазақ тіліндегі веб-сайттардағы жаңа­лық­тар мен мақалаларды, онлайн-кітап­хана­ларды қоса алғанда, жалпыға қолже­тімді көздерден жиналды. Сондай-ақ оған әртүрлі ұйым ұсынған мәлі­мет­тер де қолданылды.

«Бұл модель еліміздің ин­новацияға, дербестікке және тех­нологиялық экожүйесінің өсуіне деген ұмтылысын көрсетеді. Біздің командамыз «Meta-ның Llama» архитектурасына сүйене отырып, жоғары өнімді жүйелер мен ресурстары шектеулі орталарға оңтайландырылған 8 миллиард және 70 миллиард параметрлі «ISSAI KAZ-LLM»-нің екі нұсқасын дайындады. «CC-NC-BY» лицензиясымен шығарыл­ған модельдер коммерциялық емес мақсатта «Hugging Face» платформасында қолжетімді болады. Сонымен бірге жаһандық академиялық және зерттеу ынтымақтастығына ықпал етеді. Осылайша, әзірлеушілер біздің моделімізді күрделі серверлерге де, ноутбуктерге де жүктеп алып, іске қоса алады», дейді NU жанындағы «ISSAI» негізін қалаушы және директоры профессор Хусейн Атакан Варол.

Енді Ақылды жүйелер мен жасанды интеллект институтының зерттеушілері жасанды интеллект жүйелерін, оның ішінде тілді тану модельдерін дамытуды және осы үлгілерді қосымша түркі және аймақтық тілдерді қолдау үшін кеңейтуді қарастырмақ. Бұл аймақтық байланыстарды нығайтып, тіл интеграциясын жеңілдетеді. Сонымен қатар елімізде және басқа жерлерде елеулі экономикалық және технология­лық әсерді ынталандыруға мүмкіндік береді.

Айта кетейік, аталған институт ғалымдары жасаған «KAZ-LLM» жобасы «NU» және «NIS» даму қорының, сондай-ақ «Astana Hub» және «QazCode» (Beeline) қолдауының арқасында іске асты. Жобаны әзірлеу мемлекеттің қаражатынсыз жүргізілді.