Доклад посвящён практическим аспектам механизмов внимания в современных LLM и их влиянию на производительность и качество ответов. Мы разберём, как PageAttention позволяет экономить видеопамять при высокой нагрузке, как Cache-Augmented Generation может стать альтернативой RAG для интеграции знаний и как InfiniAttention открывает возможность работы с огромными контекстами. Слушатели узнают, какие архитектурные решения помогут им строить более быстрые, точные и экономичные сервисы на основе LLM.
Data-scientist, ml-engineer.
Middle.
Последние 2 года разрабатывает сервисы на основе LLM.
Проектировал несколько агентных систем, дошедших до конечных пользователей.
Преподаёт LLM студентам в магистратуре ИТМО.