За великого парсингу (10 000+ запитів на добу) більшість сайтів активно блокує датацентрові IP. Це виглядає як HTTP 429, 403 після десятків запитів, нескінченні капчі та потрапляння в honeypot/IDS. 4G/5G мобільні проксі імітують реального користувача смартфона: динамічний IP з NAT‑пулу оператора та вищий рівень довіри антибот-систем.
Типові симптоми блокувань
- HTTP 429 (Too Many Requests)
- 403 Forbidden після 10–30 запитів у сесії
- Captcha loop (Cloudflare / Google / reCAPTCHA)
- Потрапляння в honeypot або спрацювання IDS/anti-bot
Чому мобільні проксі працюють краще при парсингу
Ключова різниця — «репутація» IP та характер ротації. Мобільні адреси частіше належать до спільного NAT‑пулу, тому виглядають як звичайні користувачі, а не як серверний трафік.
| Фактор | Датацентр (DC) | Mobile IP |
|---|---|---|
| Рівень довіри антибот-систем | Низький | Високий |
| Бан після 20–50 запитів | Типово | Рідко |
| Captcha | Кожні 5–15 запитів | 1 раз на 200–1000+ |
| Cloudflare / Akamai | Погано/нестабільно | Зазвичай краще |
| Ротація IP | Фіксована | Динамічний NAT‑pool |
| Ризик honeypot | Середній / високий | Низький |
Режими проксі для scraping під різні задачі
| Сценарій | Рекомендований режим | Частота ротації |
|---|---|---|
| Великий масив даних, важлива швидкість | Rotating Mobile Proxy | кожні 6–15 хв або 100–300 запитів |
| Логін/акаунти, довга сесія | Sticky Mobile IP | на 1 сесію |
| API-сканування гео | Mixed mode + затримка | кожні 3–5 хв |
Живий кейс: парсинг e-commerce
Ціль: зібрати ~25 000 товарів та зображення (UA рітейл).
Скрипт: Python + Playwright (headless).
Проксі: mobile dedicated + авто-ротація кожні 8 хв.
Навантаження: ~120 req/min.
| Показник | DC proxy | 4G Mobile proxy |
|---|---|---|
| Помилки 429 | 18.6% | 4.3% |
| Captcha | приблизно кожні 30 запитів | ≈ 1 раз на 400–600 |
| Час завершення парсингу | 8 годин | 3 год 45 хв |
| Duplicate-block (honeypot) | 6 випадків | 0 випадків |
Рекомендовані параметри для стабільного scraping
- Header-rotation: User-Agent, Accept-Language, Referer
- Request delay: 200–500 мс між запитами (анти-DDoS)
- IP-rotate: кожні 200–300 запитів або 5–15 хв
- Proxy pool: мінімум 5–10 модемів, якщо потоків > 3
- Блокуйте JavaScript, якщо він не обов’язковий
- Для складних сайтів інколи краще headless = OFF і моделювання «живого» браузера
TOP‑5 помилок при парсингу через проксі
- Один IP для всього масиву
- Відсутність затримки між запитами
- Server/DC проксі на сайтах із жорстким захистом
- Нереалістичні заголовки та мова, відсутність ротації headers
- 20 потоків з одного мобільного пристрою
Висновок
Використання виділених 4G/5G проксі з правильною ротацією зазвичай дає:
- до 4× менше 429 / блокувань
- у 2–3× швидше завершення збору
- вищу стабільність (майже як residential, але часто швидше)