ZAYA1-8B: Стартап Zyphra представил компактную ИИ-модель с эффективным логическим мышлением

ZAYA1-8B: Стартап Zyphra представил компактную ИИ-модель с эффективным логическим мышлением

В то время как крупнейшие ИИ-лаборатории, такие как OpenAI и Anthropic, соревнуются в создании все более массивных моделей, другие разработчики выбирают путь оптимизации. Стартап Zyphra из Пало-Альто представил новую языковую модель ZAYA1-8B, использующую архитектуру «смеси экспертов» (Mixture-of-Experts, MoE). При общем объеме в 8,4 миллиарда параметров, в каждый момент времени активны лишь 760 миллионов из них. Несмотря на компактность, модель демонстрирует производительность, сопоставимую с гораздо более крупными системами в ряде тестов.

Технологический прорыв на базе оборудования AMD

Одной из ключевых особенностей ZAYA1-8B является процесс её обучения. Модель была полностью обучена на графических процессорах AMD Instinct MI300. Это подтверждает, что платформа от AMD является жизнеспособной альтернативой решениям Nvidia, которые долгое время доминировали в сфере разработки искусственного интеллекта. Достигнутая «плотность интеллекта» стала результатом инноваций на всех уровнях: от архитектуры до методов обучения с подкреплением.

Модель построена на проприетарной архитектуре MoE++, которая вносит три фундаментальных изменения в стандартный трансформер:

  • Сжатое сверточное внимание (CCA): технология позволяет в 8 раз сократить объем памяти, необходимой для обработки длинных текстов (KV-кеша), по сравнению со стандартными механизмами.
  • Улучшенный маршрутизатор MLP: заменяет стандартные линейные механизмы выбора «экспертов» на более сложную многослойную структуру, что повышает стабильность работы.
  • Масштабирование остаточных связей: предотвращает технические ошибки при прохождении данных через 40 слоев модели без лишних вычислительных затрат.

Приоритет логического мышления

В отличие от многих аналогов, где навыки рассуждения добавляются на этапе дообучения, в ZAYA1-8B они интегрированы с самого начала. Для работы с длинными цепочками размышлений разработчики применили метод «обрезки с сохранением ответа» (AP-Trimming). Процесс напоминает видеомонтаж: система удаляет второстепенные детали в середине цепочки рассуждений, сохраняя постановку задачи и итоговое решение, что позволяет модели обучаться сложной логике даже при ограниченном объеме памяти.

Наиболее значительный прирост производительности обеспечивает методология Markovian RSA. Она разделяет глубину мышления и размер контекста. В обзоре отмечается, что это работает по принципу научного рецензирования: модель генерирует несколько вариантов решения, анализирует их последние фрагменты и объединяет лучшие подходы в один ответ. Это позволяет ZAYA1-8B рассуждать практически неограниченно долго, не перегружая контекстное окно. В ходе тестирования на математическом наборе данных AIME ’25 модель достигла результата 91,9%, сократив разрыв с системами, имеющими в 30–50 раз больше активных параметров.

Результаты тестирования и производительность

ZAYA1-8B позиционируется как решение для разработчиков, которым требуются продвинутые рассуждения без огромных затрат на инфраструктуру. В ходе испытаний были зафиксированы следующие показатели:

  • Программирование (LiveCodeBench): модель достигла 69,2%, опередив DeepSeek-R1.
  • Сложные алгоритмические задачи (HMMT ’25): набрано 89,6%, что выше показателей GPT-5-High (88,3%) и Claude 4.5 Sonnet (79,2%).
  • Следование инструкциям (IFEval): результат 85,58, что сопоставимо с гораздо более крупными моделями.

В отчете отмечается, что хотя модель является специалистом в алгоритмических рассуждениях, она немного уступает гигантам в задачах на общую эрудицию, где критически важно общее количество параметров для хранения фактических данных.

Доступность и корпоративное использование

Компания Zyphra выпустила ZAYA1-8B под открытой лицензией Apache 2.0. Это позволяет предприятиям и независимым разработчикам бесплатно скачивать, модифицировать и использовать модель даже в коммерческих закрытых продуктах. Компактный размер делает её подходящей для запуска непосредственно на локальных устройствах — планшетах, носимых гаджетах или корпоративных серверах, что решает вопросы конфиденциальности данных и снижает зависимость от облачных API.

Стартап Zyphra, основанный в 2021 году, уже получил статус «единорога» после раунда финансирования серии A в размере 110 миллионов долларов в июне 2025 года. Среди инвесторов числятся такие компании, как AMD и IBM. Деятельность лаборатории направлена на создание ИИ, способного конкурировать с человеком в большинстве интеллектуальных задач, через децентрализованные и открытые фреймворки.

Новость вызвала широкий резонанс в профессиональном сообществе, набрав почти 1 миллион просмотров в социальной сети X* всего за сутки. По мнению экспертов, успех ZAYA1-8B подтверждает новый тренд: будущее индустрии заключается не только в наращивании вычислительных мощностей, но и в создании более эффективных алгоритмов «медленного мышления».

* — деятельность компании запрещена на территории РФ