Как-то коллеги в Викимарте озадачили меня вопросом — куда вести трафик по неоднозначным запросам, для которых есть несколько потенциально подходящих страниц приземления? Например, кто преимущественно задает запрос «перчатки»  — мужчины или женщины? В случае, если рубрикация каталога не предусматривает общего документа про перчатки, сделать осознанный выбор между документами «мужские перчатки» и «женские перчатки» весьма непросто.

Мы нашли сразу несколько решений.

Для нетерпеливых — сразу ссылка на сервис: http://i-seoexpert.ru/services/buyers/.

Используем уже накопленную статистику продаж

Этот метод применим не всегда. По понятным причинам, молодые сайты и компании могут просто не иметь нужного количества данных о посетителях. У нас в Викимарте такой проблемы не стояло :) Мы выгрузили данные о нескольких сотнях тысяч покупок, сделанных на сайте и через колл-центр. Для каждой транзакции наш лингвист определила пол покупателя по имени. Понятно, что в некоторых случаях достоверно определить пол было невозможно, но таких случаев было немного (несколько процентов).

Распределение по полу покупателей для некоторых мультигендерных категорий:

М Ж
Перчатки 36% 64%
Сумки и чехлы 37% 63%
Одежда 43% 57%
Наручные часы 46% 54%

Прогнозируем гендерное распределение, базируясь на парсинге сообщений в блогосфере

Можно оценить гендерное распределение по запросу расчетно, базируясь на данных парсинга количества мужских и женских комментариев в блогах. Проще всего использовать ЯППБ. Логика проста: расширяем базовый запрос транзакционными глаголами, фиксируя морфологическую форму и расстояние между словами:

Доли по потребителям рассчитываются аналогичным способом:

, где

  • Мсебе = базовый запрос /7 +(!купил | !приобрел | !заказал) /7 +себе
  • Мм = базовый запрос /7 +(!купил | !приобрел | !заказал) /7 +(сыну | брату | отцу | деду | … )
  • Жм = базовый запрос /7 +(!купила | !приобрела | !заказала) /7 +(мужу | сыну | брату | отцу | … )
  • и аналогично для потребителей женщин.

Аналогичным образом можно оценивать важность свойств товаров с точки зрения покупателя. Например, можно рассчитать долю детских товаров в общем спросе:

Полученные данные нужно правильно интерпретировать. Например, для очевидно детских запросов доля детских товаров не 100%, например:

запрос доля ответов, размеченных как детские популярность детских запросов
коляски 19 5,9
автокресла 19 5,6
подгузники 23 7,1
радионяни 20 6,1
куклы 14 4,3
lego 18 5,9
лего 18 5,6
кроватки 24 7,2

По сути, нужна нормировка. Самый очевидный вариант — нормировать на среднее значение. Собственно, я так и сделал:

Таким образом, популярность детских товаров означает, фактически, насколько для данного запроса характерен спрос на детские товары: чем выше значение, тем больше доля детских товаров.

Для приведенных выше детских товаров популярность варьируется от 4 до 7, что можно интерпретировать как высокую долю детских товаров. По очевидно не детским товарам (например, пылесос или магнитола) доля постов, размеченных как детские, на порядок ниже, 0.4-0.7.

Аналогичным образом можно выяснить отношение аудитории к любому свойству товара, например, к цене:

Расстояния между словами я подбирал экспериментально. Как обычно, это баланс между полнотой и точностью. На мой взгляд, расстояние в 7 слов оптимально и отсеивает значительную долю нерелевантных сообщений, обеспечивая при этом приемлемое количество результатов. В любом случае можно выбрать собственное значение из диапазона от 1 до 10 слов.

Важное ограничение применимости метода — количество полученных ответов. Очевидно, небольшие количества результатов не могут дать достоверную оценку. На мой взгляд, стоит ориентироваться на минимальный порог в несколько десятков ответов на запрос.

Также можно указать стоп-слова для отсечения нецелевого спроса, порожденного омонимичностью базового запроса или спецификой товара.

Опытным путем я выяснил, что лучше искать по комментариям к постам, они меньше заспамлены перепостингами новостных ресурсов и seo-постами.

Для обхода неверной оценки количества получаемых ответов, возникающей вследствие прюнинга, данные собираются с 20-й страницы выдачи.

Сервис

Сервис, позволяющий автоматизировать сбор данных: http://i-seoexpert.ru/services/buyers/. Пояснения есть на странице сервиса, в этой статье, а также в передаче Аналитикум.

Пользуйтесь! Буду рад идеям по улучшению функционала, пишите: me@i-seoexpert.ru.

Filed under: веб-аналитикаоптимизация сайтов

Like this post? Subscribe to my RSS feed and get loads more!