Семплирование данных. В чем опасность?

Время чтения: 4 минуты

Если у вас есть сайт с большим объемом трафика, то с понятием семплирования данных вы скорее всего столкнетесь, или уже столкнулись.

Google Analytics определяет семплирование данных как анализ подмножества данных с целью выявить значимую информацию в большем наборе данных.

То есть, когда данных много, а именно 500 тыс. сеансов на уровне ресурса для используемого диапазона дат, то для снижения нагрузки на сервер, а также ускорения обработки данных и формирования отчета, Google Analytics вместо того чтобы показывать нам необработанные (сырые) данные берет выборку с этих данных и как бы прогнозирует, достраивает остальную массу данных на основании анализа этой выборки.

Заметить это явление мы можем когда просматриваем данные на более высоком (стандартном для Analytics) уровне, а потом спускаемся на уровень ниже и данные там уже совершенно другие. Например, когда анализируем  показатели на уровне источников трафика, видим определенное количество конверсий с Google рекламы, а потом переходим на уровень кампаний по этому же Google/cpc, а сумма конверсий по кампаниям уже не сходится с цифрой, которую мы видели на уровне источников.

Google Analytics не применяет семплирование к стандартным отчетам по умолчанию и выдает нам необработанные данные в таких отчетах. Но если же мы каким-то образом изменим стандартный отчет, то данные при необходимом количестве сеансов уже будут обработанными, и от реальных могут отличаться.

Индикатором того семплирование данные вы сейчас просматриваете или нет служит значок справа от названия отчета. Если он зеленый, то данные “сырые”, если же он желтый, то данные семплирование.

 

   

   

Давайте на примере реального проекта разберем чем же может быть опасным сэмплирование данных.

Тематика - Туристические услуги

География - Украина

Инструменты - Google Ads

У одного из наших клиентов объем трафика на сайт достаточно большой, как и объем рекламного трафика. Тематика - туристические услуги. В следствии чего мы столкнулись с ограничениями со стороны Google Analytics.

На основании отчетов с Google Analytics мы оценивали результат, а также ориентировались при оптимизации. Рекламные кампании разделены по направлениям с разными объемами трафика. И если в случае с объемными направлениями, где трафика относительно много и Google Analytics хватало данных для “качественного” семплирования, то есть обработанные отчеты приблизительно сходились с реальными, то вот в случае более мелкими направлениями данные сильно отличались.

Что же делать в такой ситуации, как получить доступ к “сырым” данным. Вот некоторые из вариантов:

  • уменьшить период отчета. Все логично: период меньше, данных меньше, данные не обрабатываются. Но такой вариант подходит явно не во всех случаях;
  • использовать Google Analytics 360. В таком случае порог сеансов свободных от сэмплирования вырастает до 100 млн за выбранный период. Но этот инструмент платный;
  • подключить сторонний сервис и выгружать с Google Analytics необработанные данные.

Вот о последнем варианте и поговорим. Сервисов есть несколько, но мы остановимся на наверное наиболее простом. Да и поддержка Google Analytics рекомендует использовать именно этот способ, неофициально конечно.

Сервис называется Supermetrics. Предназначен он для импорта маркетинговых данных в Google Sheets. Более детально о том как использовать этот сервис здесь. Сервис платный, но есть тестовый период.

Давайте посмотрим как все выглядит на деле.

Вот такое количество транзакций (целевых действий на сайте) мы видим с Google/cpc  в июле, когда смотрим стандартный (неизмененный) отчет. Значок в названии зеленый, значит данные сырые”.

 

   

Но как только мы хотим посмотреть ту же статистику по Google/cpc, только в разрезе кампаний, то количество транзакций уже другое. И значок, как видите, желтый, то есть данные обработанные. И реального количества транзакций по каждой отдельной кампании мы не увидим. И как уже писали выше, для кампаний с небольшим объемом трафика разница в транзакциях может быть весьма ощутима.

   

   

Вот что получилось после выгрузки данных с помощью стороннего сервиса. Как видите, есть данные в разрезе кампаний, а сумма по транзакциям сходиться с “сырыми” данными с Google Analytics.

   

   

Часто очень важно работать именно с “сырыми” данными, но, к сожалению, у Google Analytics есть ограничения на этот счет. Хорошо что есть способы достать эти данные. Что касается именно Supermetrics, то этот способ можно быстро внедрить, он не сложный, но сравнительно не автоматизированный и работать в дальнейшем с данными может быть не совсем удобно.

Задать вопрос

Есть вопросы по статье? - Задайте их нам, мы с радостью ответим Вам!