При большом парсинге (10 000+ запросов в сутки) большинство сайтов быстро «режет» датацентровые IP. Это проявляется как HTTP 429, 403 после десятков запросов, бесконечные капчи и попадание в honeypot/IDS. 4G/5G мобильные прокси дают трафику «вид» реального пользователя смартфона: динамический IP из NAT‑пула и заметно выше доверие антибот-систем.
Типичные симптомы блокировок при парсинге
- HTTP 429 (Too Many Requests) при росте частоты запросов
- 403 Forbidden после 10–30 запросов в сессию
- Captcha loop (Cloudflare / Google / reCAPTCHA)
- Попадание в honeypot или срабатывание IDS/anti-bot
Почему мобильные прокси работают лучше
Главная разница — в «репутации» IP и в характере ротации. У мобильных адресов обычно общий NAT‑пул оператора, поэтому они чаще выглядят как обычные пользователи, а не как серверный трафик.
| Фактор | Датацентр (DC) | Mobile IP |
|---|---|---|
| Доверие антибот-систем | Низкое | Высокое |
| Бан после 20–50 запросов | Типично | Редко |
| Captcha | Каждые 5–15 запросов | 1 раз на 200–1000+ |
| Cloudflare / Akamai | Часто плохо | Обычно лучше |
| Ротация IP | Фиксированный | Динамический NAT‑pool |
| Риск honeypot | Средний / высокий | Низкий |
Режимы прокси под разные сценарии scraping
| Сценарий | Рекомендуемый режим | Ротация |
|---|---|---|
| Большие объёмы, важна скорость | Rotating Mobile Proxy | каждые 6–15 минут или 100–300 запросов |
| Логины/аккаунты, длинная сессия | Sticky Mobile IP | на 1 сессию |
| API-сканирование гео | Mixed mode + задержка | каждые 3–5 минут |
Живой кейс: парсинг e-commerce
Цель: собрать ~25 000 товаров и изображения (UA ритейл).
Стек: Python + Playwright (headless).
Прокси: mobile dedicated + авто-ротация каждые 8 минут.
Нагрузка: ~120 req/min.
| Показатель | DC proxy | 4G Mobile proxy |
|---|---|---|
| Ошибки 429 | 18.6% | 4.3% |
| Captcha | примерно каждые 30 запросов | ≈ 1 раз на 400–600 |
| Время завершения | 8 часов | 3 ч 45 мин |
| Duplicate-block (honeypot) | 6 случаев | 0 случаев |
Рекомендуемые параметры для стабильного scraping
- Header-rotation: User-Agent, Accept-Language, Referer
- Delay: 200–500 мс между запросами (анти-DDoS)
- IP-rotate: каждые 200–300 запросов или 5–15 минут
- Proxy pool: минимум 5–10 модемов, если потоков > 3
- Отключайте JavaScript, если он не обязателен
- Для сложных сайтов иногда лучше headless = OFF и эмуляция «живого» браузера
TOP‑5 ошибок при работе с прокси
- Один IP на весь массив данных
- Нет задержек между запросами
- Server/DC прокси на сайтах с агрессивной защитой
- Нереалистичные заголовки и язык (UA/EN), отсутствие ротации headers
- 20 потоков с одного мобильного устройства
Вывод
Выделенные 4G/5G прокси с корректной ротацией обычно дают:
- до 4× меньше 429 и блокировок
- в 2–3× более быстрое завершение сбора
- более высокую стабильность (почти как residential, но зачастую быстрее)