Эволюция внимания в больших языковых моделях: технологии, ускоряющие будущее

Data Science/ML/AI

Тезисы

Доклад посвящен практическим аспектам механизмов внимания в современных LLM и их влиянию на производительность и качество ответов. Мы разберем, как PageAttention позволяет экономить видеопамять при высокой нагрузке, как Cache-Augmented Generation может стать альтернативой RAG для интеграции знаний, и как InfiniAttention открывает возможность работы с огромными контекстами. Слушатели узнают, какие архитектурные решения помогут им строить более быстрые, точные и экономичные сервисы на основе LLM.


Аудитория

Data-scientist, ml-engineer.


Уровень сложности

Middle.

2ГИС
Александр Иванов

Последние 2 года разрабатывает сервисы на основе LLM.

Проектировал несколько агентных систем, дошедших до конечных пользователей.

Преподает LLM студентам в магистратуре ИТМО.

Другие спикеры секции Data Science/ML/AI

Еще на тему Data Science/ML/AI