Ruadapt: адаптация мультиязычных LLM на русский язык

Data Science/ML/AI
Management

Тезисы

Современный opensource в сфере LLM предлагает большой перечень моделей, пригодных для использования на русском языке. Однако многие упускают из вида тот факт, что токенизация у большинства мультиязычных LLM на русском языке в полтора раза хуже, чем на английском, что приводит по сути к существенному снижению эффективности использования (инференса) и дообучения таких моделей на русском языке.

Проект Ruadapt направлен на разработку методологии адаптации мультиязычных LLM на русский язык со сменой токенизации на более подходящую, что приводит к ускорению генерации (в символах) до 30-100%. Помимо повышения эффективности, в фокусе исследования также способы повышения качества понимания русских текстов. На основе разработанной методологии были адаптированы на русский язык модели серии Qwen2.5 (RuadaptQwen2.5), которые занимают одни из лидирующих позиций в своих весовых категориях.

В докладе будет описана как сама методология и вызовы с которыми мы сталкиваемся, так и технические детали процесса адаптации.


Аудитория

Team-lead, data-scientist, ML-engineer, manager.


Уровень сложности

Any level.

НИВЦ МГУ имени М.В. Ломоносова
Михаил Тихомиров

Кандидат физ.-мат. наук. Начинал свою карьеру как C++ программист, но решил уйти в науку, где и продолжает работать до сих пор над задачами обработки естественного языка (NLP). В фокусе текущих интересов — LLM и все с ними связанное.

Другие спикеры секции Data Science/ML/AI

Еще на тему Data Science/ML/AI