«Мы даже не замечаем и не знаем, что там работает ИИ» - интервью с ученым Алибеком Барлыбаевым
Фото: из личного архива
Казахстан должен стать страной, где широко применяется искусственный интеллект и развиваются цифровые технологии. Эту приоритетную задачу поставил перед правительством президент Касым-Жомарт Токаев в своём Послании. В Казахстане в ближайшее время планируется создать суперкомпьютер и запустить новый дата-центр, а в Астане намерены открыть Национальный центр искусственного интеллекта. В следующем году у нас должен появиться и Закон «Об искусственном интеллекте». Как в стране развиваются и внедряются технологии ИИ и над чем работают казахстанские учёные – в интервью с директором Научно-исследовательского института «Искусственный интеллект», доктором PhD Алибеком Барлыбаевым.
- Алибек Бактыбаевич, как в целом у нас обстоят дела с развитием искусственного интеллекта в Казахстане?
– Если рассматривать внедрение элементов ИИ в повседневную жизнь, то становится очевидным, что они настолько интегрированы, что их присутствие часто остаётся незамеченным. Мы даже не замечаем и не знаем, что там работает ИИ. Примеры такого рода включают систему видеонаблюдения "Сергек", маршрутизацию посылок в "Казпочте" и "Kaspi.kz", таргетирование рекламы, а также предсказание синтеза новых лекарственных средств и многое другое. Эти технологии находят применение в нашей повседневной жизни.
В то же время, несмотря на значительные достижения в области ИИ, на данный момент не существует систем искусственного интеллекта, способных вести коммуникацию на уровне, неотличимом от человеческого. Такие системы, которые могли бы взаимодействовать с человеком таким образом, что тот не смог бы определить, что его собеседник – машина, пока остаются в разработке и не имеют широкого распространения. Машина пока не умеет говорить, принимать решения и выглядеть, как человек.
- Казахстан должен стать страной, где широко применяется искусственный интеллект и развиваются цифровые технологии – такую приоритетную задачу поставил перед правительством президент Казахстана Касым-Жомарт Токаев. Какие меры, принятые по поручению главы государства, способствуют ускорению развития ИИ в Казахстане, по вашему мнению?
– В рамках государственного управления многие госорганы активно участвуют в разработке и внедрении искусственного интеллекта, причём особо стоит выделить Министерство цифрового развития и Министерство науки и высшего образования. Например, в Евразийском национальном университете имени Л. Н. Гумилева функционирует образовательная программа по специальности «Технологии искусственного интеллекта», в рамках которой обучение строго сфокусировано на дисциплинах, связанных с ИИ. В этом году ожидается первый выпуск бакалавров по данной специальности, а также уже есть магистратура и докторантура по специальности «Технологии искусственного интеллекта».
Примером значительных инициатив является проект, реализуемый Центром поддержки цифрового правительства Министерства цифрового развития, инноваций и аэрокосмической промышленности под руководством Бигари Рустема и при поддержке Всемирного банка. Проект направлен на создание KazGPT. Кроме того, Мадина Мансурова из Казахского национального университета имени Аль-Фараби возглавляет программу базового финансирования тоже по созданию KazGPT. Пока не ясно, кто будет первым в реализации и внедрении этого проекта, но наличие конкуренции между государственными органами способствует стимулированию прогресса в этом направлении.
- Насколько активны казахстанские университеты и научные институты в области исследований и разработок с ИИ? Какие исследования являются приоритетными для казахстанских учёных?
– В ведущих университетах Астаны и Алматы активно применяются методы искусственного интеллекта в рамках научных исследований. Конечно, хотелось бы чтобы региональные вузы стали более активными в этом плане. Из региональных учебных заведений можно отметить Восточно-Казахстанский технический университет им. Д. Серикбаева. Темы исследований включают широкий спектр приложений ИИ, таких как интеллектуальные сенсорные устройства, прогнозирование землетрясений, разработка умных дронов, создание экзоскелетов, синтез новых лекарственных препаратов, алгоритмы для торговли акциями и многое другое.
В свете текущих научных и технологических вызовов, представляется важным акцентировать усилия на разработке собственных архитектур нейронных сетей, исследованиях в области биоинформатики, создании умных микропроцессоров и квантовых вычислений. Эти направления на данный момент испытывают недостаток в развитии и требуют углубленного внимания со стороны научного сообщества.
Наш президент оказывает значительную поддержку научной сфере, обращая пристальное внимание на проблемы учёных. Его поддержка стала очень хорошо чувствоваться рядовым учёным, и хочется обязательно выделить это и сказать спасибо.
- Учёные НИИ «Искусственный интеллект» ЕНУ имени Л. Н. Гумилева разработали казахскоязычный аналог чат-бота ChatGPT – это первая большая языковая модель LLM на казахском языке, как сообщали в СМИ. Расскажите об этой разработке, каковы возможности её применения?
– Для начала был собран корпус, охватывающий географию Казахстана и содержащий 1,5 миллиона слов, он был собран для поддержки научно-образовательного стиля вопросов и ответов. Для аннотации использовалась нотация SQuAD (Stanford Question Answering Dataset). Нейронная сеть, разработанная для обработки этого корпуса, содержит 91 миллион параметров и производит выходные данные длиной в 32 символа. В рамках исследования был реализован процесс, состоящий из трёх этапов. На первом этапе было сформировано 50 000 пар вопросов и ответов на казахском языке, которые были аннотированы. На втором этапе происходило обучение модели BERT, двунаправленного трансформера с архитектурой энкодера и декодера. Заключительный этап включал оценку результатов с использованием метрики BLEU, где было достигнуто значение 95.
После завершения обучения модели по географии были проведены дополнительные тесты на способность системы генерировать ответы вне контекста географии. Система успешно справилась с вопросами, основанными на литературном произведении "Абай жолы", нормативной документации, научных текстах и исторических материалах. Отдельные эксперименты с биографиями выдающихся личностей подтвердили, что система хорошо понимает правила казахского языка и способна генерировать синтаксически и грамматически корректные ответы, соответствующие запросам пользователей.
Самое главное открытие в том, что был определен парадокс, связанный с обработкой суффиксов и аффиксов нейронной сетью, он тесно связан с токенами и тензорами нейронной сети с использованием в казахском языке «жұрнақ» и «жалғау». Этот парадокс заключается в том, что суффиксы, аффиксы и т.д. не усложняют понимание нейронной сетью информации в виде текста, а наоборот они помогают лучше генерировать предложения, но при этом суффиксов много не должно быть. Таким образом, для обучения нейронной сети на английском языке требуется больше текстовых данных, чем для обучения на казахском языке. То есть то, что казахский язык малоресурсный и у нас мало оцифрованного контента, не мешает нам качественно обучать машину говорить на казахском языке.
В данный момент мы проводим исследования по разработке LLM которая будет способна генерировать более 2500 символов. В этом плане нам активно помогают наши китайские коллеги, которые предоставляют доступ к своим суперкомпьютерам. Это позволит нам использовать казахско-китайский машинный перевод и технологии GPT для развития электронной коммерции и услуг в сфере образования.
- Министр цифрового развития делился планами, что к 2029 году в Казахстане намерены обучить 5 миллионов человек навыкам искусственного интеллекта, подготовить 500 тысяч отраслевых экспертов и увеличить экспорт информационных технологий до 5 миллиардов долларов. Каковы ваши прогнозы, как в ближайшие 5–10 лет изменится рынок труда с развитием ИИ в Казахстане?
- Рынок труда может очень сильно измениться, а многие профессии могут просто исчезнуть. Вот список профессий, которые, по моему мнению, подвержены большему риску исчезновения: кассиры, бухгалтеры, аудиторы, кладовщики, водители грузовиков, операторы call-центров, производственные рабочие, секретари и офис-менеджеры, банковские клерки, техники по обработке данных, почтальоны и курьеры, операторы телемаркетинга, диспетчеры транспортных средств, юридические помощники, риелторы, работники пищевого производства, работники сферы быстрого обслуживания, инспекторы и оценщики, медицинские транскриберы, технические специалисты по поддержке, библиотекари, агенты по бронированию и продаже билетов.
- Президент в послании высказался о том, что следует активно внедрять технологии искусственного интеллекта в платформу «электронного правительства». Как это уже реализуется и почему это важно?
– На текущий момент идёт разработка законопроекта, регулирующего применение искусственного интеллекта. В контексте развития инфраструктуры планируется закуп и установка суперкомпьютера в Казахстане, который будет поддерживать различные государственные и частные ИИ-инициативы. В частности, платформа электронного правительства Egov будет интегрирована с ИИ для улучшения качества предоставляемых услуг. Дополнительно предусматривается подключение систем искусственного интеллекта к сетям видеонаблюдения во всех регионах страны, что способствует повышению безопасности и эффективности городской инфраструктуры. Хотя на данный момент данные технологии ещё не внедрены, существует ожидание, что к концу 2024 года основные этапы реализации будут завершены. Это позволит встретить новый 2025 год с уже функционирующими системами на базе ИИ, что станет значительным шагом в технологическом развитии Казахстана.
Но, мне кажется, этот план не будет реализован и будут задержки в исполнении обещаний чиновников. Меня смущает факт того, что чиновники начали говорить о том, что они уже «внедряют» ИИ и заявляют, что они в этом году исполнят поручение президента. При этом они не имеют хотя бы суперкомпьютер, который все это потянет.
- В утверждённой Концепции развития искусственного интеллекта на 2024 – 2029 годы среди приоритетных отраслей, где может быть применен ИИ — государственное управление, субъекты естественных монополий в нефтегазовой, горнодобывающей, энергетической, транспортной, логистической, водоснабжающей и сельскохозяйственной отраслях. Какие отрасли экономики Казахстана и каким образом уже успешно используют ИИ-технологии?
– Государственный аппарат представляет собой сложную систему, и попытки его цифровизации ранее сталкивались с серьёзными трудностями, требующими значительных временных и финансовых вложений. Несмотря на это, цифровизация принесла определенные положительные результаты, например, улучшение услуг на платформе электронного правительства Egov, хотя другие решения сопровождалась некоторыми негативными последствиями. На данный момент ИИ не находит широкого применения в полном объёме, исключая проекты вроде «Сергек», который демонстрирует значительные позитивные результаты. Хотя профильные органы демонстрируют определенные результаты благодаря внедрению ИИ, полная оценка их эффективности и правильности принятых решений остается сложной задачей, на это нужно время. Пока ни одна отрасль экономики не использует ИИ-технологии успешно. Это подчеркивает необходимость дальнейшего анализа и оценки результатов внедрения цифровых технологий в государственное управление.