Скрапинг давно перестал быть просто отправкой HTTP-запросов и парсингом HTML. Со временем он превратился в настоящую инженерную задачу, требующую нестандартных решений и комплексного подхода. В докладе проследим эволюцию инструментов — от примитивных клиентов до продвинутых систем, имитирующих действия реального пользователя.
Поговорим о том, в каких случаях достаточно легковесного HTTP-клиента, а когда уже приходится подключать Playwright с управлением через прокси и эмуляцией поведения браузера. Разберем, как устроены современные скраперы: с системой ротации IP, автоматическим решением CAPTCHA и постоянной адаптацией к изменениям защиты.
Также обсудим, какие техники позволяют обойти самые сложные барьеры — от Stealth-браузеров до применения LLM. И всё это — с акцентом на масштабируемость, разумные затраты и этичное отношение к источникам данных.
Backend-developer, frontend-developer, team-lead, engineers.
Advanced.
Арсений обожает технологии во всех их проявлениях.
Живёт в Омске, не женат, рост 178 см, любит мороженое крем-брюле :)
Очень сильно любит разработку, технологии и всё, что с этим связано!
Backend-инженер и архитектор решений в компании Effective. Компания помогает бизнесу создавать и масштабировать IT-департаменты благодаря своей экспертизе.
Поэтому у него есть возможность заниматься разработкой на множестве проектов вместе с самыми разными командами.
Он занимается оценкой и проектированием архитектуры для проектов компаний Яндекс, YanGo, Mokka и других.
Также, помимо этого, занимается разработкой и поддержкой решений на Python и Node.js для зарубежных стартапов.
Одним из таких стартапов и является тот, который побудил его к подготовке и рассказу этого доклада.