Доклад посвящен практическим аспектам механизмов внимания в современных LLM и их влиянию на производительность и качество ответов. Мы разберем, как PageAttention позволяет экономить видеопамять при высокой нагрузке, как Cache-Augmented Generation может стать альтернативой RAG для интеграции знаний, и как InfiniAttention открывает возможность работы с огромными контекстами. Слушатели узнают, какие архитектурные решения помогут им строить более быстрые, точные и экономичные сервисы на основе LLM.
Data-scientist, ml-engineer.
Middle.
Последние 2 года разрабатывает сервисы на основе LLM.
Проектировал несколько агентных систем, дошедших до конечных пользователей.
Преподает LLM студентам в магистратуре ИТМО.