Что изменилось к 2026 и почему тема «право на парсинг» стала острее
Парсинг (web scraping) давно стал нормальным инструментом бизнеса, аналитики, журналистики данных и QA‑проверок. В 2026 конфликт всё тот же: данные выглядят публичными, но площадка пытается контролировать доступ, скорость выгрузки и повторное использование.
При этом правила стали «многослойными». Недостаточно сказать «мы берём то, что видно в браузере». Нужно одновременно учитывать: (1) нормы про несанкционированный доступ, (2) договорные ограничения (Terms/ToS), (3) авторское право, (4) права на базы данных (особенно в ЕС), (5) режим персональных данных (GDPR/UK GDPR и аналоги), (6) конкуренцию и недобросовестные практики, (7) технические сигналы вроде robots.txt.
Публичные данные ≠ «свободные для любого использования»
Публичными обычно считают данные, доступные без логина и пароля: каталоги, цены, объявления, новости, открытые профили. Но «публичность» описывает только способ доступа, а не право копировать и перерабатывать данные как угодно. Даже если страницу может открыть любой, это не означает, что вы можете:
- массово копировать контент и публиковать его у себя;
- обходить технические ограничения (антибот, IP‑блокировки, paywall, токены);
- собирать персональные данные и дальше их профилировать или перепродавать;
- нарушать условия договора, если вы их приняли (как зарегистрированный пользователь);
- перегружать сервер и создавать эффект DoS.
Практичнее мыслить так: «есть ли законный доступ» + «есть ли право обрабатывать/копировать именно эти данные» + «действую ли я пропорционально и добросовестно».
Три практические категории парсинга
- Низкий риск: сбор неперсональных фактов (цены, наличие, характеристики), без обхода защиты, с ограничением частоты запросов, без копирования творческого контента.
- Средний риск: смешанные данные, где могут встречаться персональные элементы (имена, телефоны, аватары), или сбор для конкурентной агрегации. Здесь критичны privacy, ToS, право на базу данных, конкуренция.
- Высокий риск: парсинг «под логином», обходы антибота, подмена аккаунтов, выгрузка больших массивов персональных данных, зеркалирование сайта, перепродажа профилей/контактов.
1) Несанкционированный доступ и «антихакерские» нормы
Почти везде есть нормы о несанкционированном доступе к компьютерным системам. В США часто обсуждают CFAA. Практический вывод из судов последних лет: если данные доступны без аутентификации, риск криминализации «самого чтения» ниже, чем когда вы лезете «за пароль». Но риск возвращается, если вы:
- обходите технические барьеры (средства против блокировок, которые трактуются как обход);
- используете чужие/скомпрометированные учетные данные;
- делаете действия, похожие на атаку: подбор токенов, агрессивный трафик, сканирование.
Упрощённое правило 2026: не превращайте парсинг в «взлом». Чем больше автоматизации, тем важнее показать, что вы действуете как обычный посетитель, только быстрее и аккуратнее, а не как атакующий.
2) Terms of Service: когда запрет на scraping становится иском
ToS — это договор. Если вы приняли условия (аккаунт, галочка, использование API), запрет на scraping может стать основанием для требований о нарушении договора.
Нюанс: для logged-off парсинга иногда сложнее доказать, что договор вообще заключён. Но как только вы работаете «под логином» или через аккаунты, ToS становятся существенно опаснее. Практически это означает:
- Не парсить то, что доступно только после входа, если ToS это запрещают.
- Не использовать «фермы аккаунтов» для сбора, если это против правил платформы.
- Рассмотреть официальный API или партнерский доступ, если он реалистичен.
3) Авторское право: факты можно, форму — осторожно
Факты (цена, дата, модель) обычно не охраняются авторским правом. Но охраняется форма: тексты описаний, фотографии, обзоры, подборки. Ошибка — думать, что «раз публично, значит можно копировать».
- Собирайте и отображайте фактические поля, а не целые описания.
- Фотографии — частая зона претензий. Если нужны — решайте через права/лицензию или собственный контент.
- Для аналитики лучше преобразовывать данные: нормализация, агрегация, статистика вместо «копировать и показывать».
4) ЕС: право на базы данных и «извлечение существенной части»
В ЕС действует sui generis право производителя базы данных. Риск чаще в масштабе: системное извлечение существенной части базы (или многократное извлечение несущестенных частей, которое суммарно даёт «существенно») может стать основанием претензий.
- Конкурентная агрегация «почти всего каталога» — высокий риск.
- Точечный мониторинг цен по ограниченной выборке — заметно безопаснее.
- Имеет значение инвестиция платформы в создание и поддержку базы.
5) ЕС: Text & Data Mining и «opt-out» как новый сигнал
Для text and data mining в ЕС есть специальные исключения в авторском праве. Для коммерческих сценариев важна идея: при законном доступе TDM может быть допустим, но правообладатель может явно зарезервировать использование для TDM (opt-out) «надлежащим образом», включая машиночитаемые способы.
Из‑за этого robots.txt, метаданные и другие сигналы стали восприниматься серьёзнее. Robots.txt не равен «замку на двери», но может быть доказательством предупреждения и резервирования прав.
6) Robots.txt в 2026: технический стандарт, но юридическая роль растёт
Robots.txt — часть Robots Exclusion Protocol (RFC 9309). В самом стандарте подчёркнуто: robots.txt не является авторизацией, это политика/запрос к роботам. Но в спорах он может работать:
- как показатель игнорирования явно выраженной воли владельца ресурса;
- как маркер добросовестности (вы уважали disallow, снижали нагрузку);
- как элемент TDM opt-out в европейских кейсах.
Практика: коммерческий парсер должен читать robots.txt, уважать sitemap и правила user-agent, а также фиксировать это в логах.
7) Персональные данные: «публично» всё равно может означать «под GDPR»
Если вы собираете данные, которые идентифицируют человека (ФИО, телефон, email, фото, ник, ID профиля), вы почти наверняка попадаете под GDPR/UK GDPR или локальные аналоги. Здесь граница легальности — не в слове «парсинг», а в слове «обработка». Нужны:
- правовое основание (часто — legitimate interests с тестом баланса);
- минимизация (берите только необходимое);
- прозрачность (как вы информируете субъектов данных);
- безопасность (контроль доступа, шифрование, журналы);
- сроки хранения и удаление;
- процедуры для прав субъектов (доступ, удаление, возражение).
Поэтому для большинства продуктов безопаснее работать с неперсональными публичными данными, а персональные — трогать только при чётко обоснованной цели и строгой минимизации.
8) Недобросовестная конкуренция и «перепаковка» чужих инвестиций
Даже если вы не упираетесь в ToS и privacy, остаётся конкуренция. Если ваш сервис монетизирует чужой каталог без разрешения, возможны аргументы про паразитирование на инвестициях и введение пользователей в заблуждение (когда выглядит, будто данные «ваши»).
- Риск выше, если ценность продукта — только интерфейс поверх чужой базы.
- Риск выше, если обновления настолько частые, что вы «замещаете» площадку.
- Риск выше, если вы скрываете источник и брендинг.
9) «Рецепт» более легального парсинга: чеклист 2026
- Формализуйте цель и список необходимых полей.
- Ограничьте объём: выборка вместо «всё», умеренная частота, кеширование.
- Не обходите защиту: никакого обхода логина, токенов, paywall, «взлома» антибота.
- Уважайте robots.txt и правила нагрузки.
- Не копируйте творчество: тексты/фото — только с правами или заменяйте фактами.
- Privacy by design: фильтруйте персональные поля; если нельзя — документируйте основание и минимизацию.
- Логи и аудит: что парсилось, по каким правилам, какая скорость.
- Канал для жалоб и быстрый takedown.
10) Что делать, если сайт прямо «запрещает парсинг»
- перейти на API (официальный или партнерский);
- сильно сократить объём и собирать только факты;
- получить разрешение/лицензию или договор на доступ к данным;
- усилить продукт собственными данными и аналитикой, чтобы не зависеть от полного копирования.
Где проходит граница «lawful access»
Во многих режимах ключевым является lawful access — законный доступ. Страница может быть видимой, но вы всё равно выходите за рамки, если обходите гео‑ограничения, используете технические ошибки для доступа к «закрытому», или массово эксплуатируете одноразовые токены/подписанные URL.
Юрисдикции: один парсер — разные правила
Парсинг часто международный, поэтому правила накладываются. Персональные данные могут подтягивать требования по месту проживания субъекта и по месту деятельности контролера. А договорные и конкурентные споры — по выбранной юрисдикции платформы или по ToS (если применимо). Для коммерческого проекта полезна карта рисков: где серверы, чьи пользователи, какие поля собираются.
DSA и доступ к данным для исследователей: сигнал рынку
Digital Services Act усилил рамки прозрачности и создал механизмы доступа к данным для проверенных исследователей в контексте системных рисков. Это общий тренд: рынок движется к управляемому доступу (процедуры, API), а не к хаотичному scraping. Если продукт критично зависит от данных платформ — подумайте, как перейти к официальному каналу.
Документы, которые реально помогают при претензии
- политика сбора данных (что, зачем, откуда);
- описание технических ограничений (rate limiting, кеш, robots.txt);
- оценка персональных данных и фильтров;
- процедура реагирования (takedown, блокировки источников).
Вывод
В 2026 «легальный парсинг» — это комбинация: законный доступ, уважение технических правил, минимизация данных, отказ от обходов защиты, осторожность с персональными данными и масштабом извлечения базы. Чем лучше вы можете объяснить процесс как пропорциональный и безопасный, тем сильнее позиция, даже если данные публичные.