Скрапинг давно перестал быть просто отправкой HTTP-запросов и парсингом HTML. Со временем он превратился в настоящую инженерную задачу, требующую нестандартных решений и комплексного подхода. В докладе проследим эволюцию инструментов — от примитивных клиентов до продвинутых систем, имитирующих действия реального пользователя.
Поговорим о том, в каких случаях достаточно легковесного HTTP-клиента, а когда уже приходится подключать Playwright с управлением через прокси и эмуляцией поведения браузера. Разберём, как устроены современные скраперы: с системой ротации IP, автоматическим решением CAPTCHA и постоянной адаптацией к изменениям защиты.
Также обсудим, какие техники позволяют обойти самые сложные барьеры — от Stealth-браузеров до применения LLM. И всё это — с акцентом на масштабируемость, разумные затраты и этичное отношение к источникам данных.
Backend-developer, frontend-developer, team-lead, engineers.
Advanced.
Обожает технологии во всех их проявлениях. Backend-инженер и архитектор решений в компании Effective, которая помогает бизнесу создавать и масштабировать IT-департаменты. Занимается оценкой и проектированием архитектуры для проектов компаний Яндекс, YanGo, Mokka и пр.
Также занимается разработкой и поддержкой решений на Python, node.js для зарубежных стартапов.
Живёт в Омске, не женат, рост 178 см, любит мороженое крем-брюле.