Как «думают» LLM: внутренняя механика языковых моделей

Data Science/ML/AI

Тезисы

Большие языковые модели часто воспринимаются как чёрный ящик с магическими способностями, но на самом деле их поведение можно объяснить с точки зрения науки о данных, архитектур моделей, методов обучения и математики.

В своём докладе я расскажу, как работают языковые модели, опираясь на механику их функционирования и актуальные исследования. Например, обсудим, чем полезны метод Chain-Of-Thought и архитектура Mixture of Experts (MoE), а также почему для языковой модели так сложно посчитать количество букв в слове. В общем, погрузимся в «секреты волшебства» LLM.


Аудитория

Data-scientist, ML-engineer, engineers, managers, backend, frontend.


Уровень сложности

Any level.

AIRI
Матвей Михальчук

Окончил механико-математический факультет МГУ. Исследователь ИИ в лаборатории FusionBrain Института AIRI. Изучает интерпретируемость и геометрические свойства признаковых пространств в языковых моделях. Один из ключевых участников разработки мультимодальной модели OmniFusion.

Другие спикеры секции Data Science/ML/AI