общее Archives

Мало пишу в блог, больше — в facebook.

Заходите, https://www.facebook.com/mikhailslivinskiy

Мой доклад на Яндекс.Вебмастерской, 20.04.2013

Как сделать сайт привлекательным для пользователей и поисковых машин? Что имеет ценность, а что бесполезно? Сколько документов на вашем сайте порождают заказы? Все ли запросы одинаково полезны? Как измерить эффективность? Это – важные вопросы, на них нужно знать ответы.

«Повышаем качество коммерческого сайта. От слов к цифрам и действиям.» — презентация+видео.

Спасибо организаторам за приглашение выступить и безупречное проведение мероприятия 😉

Впечатления от РИФ-2013

Вчера провел весь день на РИФе. Поисковая сессия в 10 утра была замечательна :) Говорили как о серьезных вещах, типа устройства и необходимости Knowledge Graph, так и об отвлеченных материях. Ну, например, как построить идеальную поисковую машину по порноконтенту. Ну что, тоже тема. И востребованная, хотя леса рук на вопрос «кому нравится порно» не наблюдалось :)

Вечером сделал доклад на ашмановской секции «Поисковое продвижение: практика и кейсы». Большое спасибо команде Косте Рощупкину за предложение выступить. Рассказал о наших подходах к оптимизации, маркетинговой аналитике, построению инструментов. Вот презентация:

 

Всем аналитикам, крупно, на стену :)

«Радуйся тому, что у тебя интересная и интеллектуальная работа, но всегда помни, что без пользователей ее бы не было»

Андрей Орлов, «Записки автоматизатора»

Семинар в Екатеринбурге

Организаторы — IT-people (Ксения и Юля) — были на высоте. Не обманули и с уровнем аудитории — действительно, для большинства разговор получился весьма целевой и содержательный. Спасибо и до будущих встреч!

PS. Буду рад фидбеку в комментариях.

ekb-seminar

Хороший пример неверных выводов, порождаемых смещенной выборкой

Попалась на глаза статья с Хабра — «Хром занял первое место в России». Оказалось, вывод сделан на основе данных statcounter.com:

 

Подумалось, что выборка смещенная. И действительно, на сайте нашлось  сравнение популярности поисковых систем в Рунете, которое ставит все на свои места:

Хотя это не всегда просто, но все же пытайтесь убедиться в достоверности данных 😉

Антиспам на основе анализа поведения пользователей

Исторически сложилось, что поисковые системы использовали упрощенные модели для извлечения сигналов для ранжирования и антиспама. По мере роста трафика и кликстрима стал возможным переход к более реалистичным моделям. Например, на смену модели случайного блуждания Pagerank пришли модели учета поведения реальных пользователей (Browserank и аналогичные алгоритмы).

Конечно, этот переход не означает безоговорочного отказа от традиционного Pagerank, но означает уменьшение его вклада в расчет релевантности документа в пользу новых возможностей.

Важно, что реалистичные модели обеспечивают не только лучший сигнал в ранжировании, но и и позволяют эффективно подавлять спам. Рассмотрим некоторые подходы, опубликованные в статье «Identifying Web Spam with User Behavior Analysis», Tsinghua University, Beijing, 2008.

Авторы решили две задачи:

  1. Выявлены поведенческие шаблоны, позволяющие эффективно обнаруживать спам,
  2. Создана платформа для обнаружения новых способов спама.

Технической базой для эксперимента послужил фрагмент лога поисковой системы sogou.com за 57 суток (лето 2007 года). Этот массив данных содержал 22.1 миллиона пользовательских сессий и 2,74 миллиарда кликов по 800 миллионам документов.

Шаблоны, хорошо характеризующие спам

Доля seo-трафика на документ

Определим долю seo-трафика (search engine oriented visit, SEOV):

Гипотеза проста: на спамные документы пользователи обычно попадают только через поисковую выдачу. Напротив, на качественные документы обычно существует не seo-трафик. Предполагаем, SEOV для спамных документов будет более высоким. Посмотрим на распределение качественных и спамных документов по интервалам SEOV:

 

Видно, что 82% хороших документов получили менее 10% трафика из поисковых систем. С другой стороны, для почти 60% спамных документов доля seo-трафика 40% и более. При этом всего 1% качественных документов имеет SEOV более 70%.

Документ как источник трафика

При клике по ссылке и источник, и целевая страница перехода фиксируются в web access  log’е. Любой документ может являться как получателем, так и источником трафика. Хотя спамные документы могут содержать большое количество исходящих ссылок, они обычно не порождают трафика на целевые страницы.

Определим долю случаев, в которых документ является источником трафика (source page rate, SP):

Из распределения документов по приведенному критерию видно, что SP для качественных страниц обычно больше, чем для спамных:

Почти половина спамных документов, присутствующих в training set’е, редко выступают источником трафика (SP < 5%). Лишь 7.7% спамных документов демонстрируют SP более 40%, доля качественных документов в этом же диапазоне SP — более 53%.

Доля коротких визитов

Очевидно, контент спамных документов не стимулирует пользователей проводить много времени на сайте. Определим долю коротких визитов (short-time navigation rate, SN rate):

Переменная N может варьироваться, исследователи установили ее равной 3. Физический смысл SN прост — это доля сессий, в которых было просмотрено менее N документов сайта.

Видно, что доля коротких визитов позволяет неплохо решить задачу выявления спама:

Алгоритм обнаружения спама, основанный на анализе особенностей поведения пользователей

Выявление спама — типичная задача классификации. Исследователи использовали наивный байесовский классификатор и рассмотрели одно- и многофакторную модели. Итоговая функция оценки вероятности документа быть спамным:

Детали реализации доступны в исходной статье.

Интересно, что предложенные факторы оказались практически независимы:

По-видимому, это связано с различной природой источников данных.

Алгоритм выявления спама:

  1. Сбор лога,
  2. Расчет SEOV и SP для каждого документа,
  3. Расчет SEOV и SP для каждого сайта (усредняя документные данные п.2),
  4. Расчет SN для каждого сайта,
  5. Расчет вероятности документа оказаться спамным.

Результаты

Обучив классификатор, разработчики алгоритма протестировали его на случайной выборке из 1564 сайтов. Асессоры сочли 345 сайтов спамными, 1060 не спамными, 159 — затруднились оценить. Построенная ROC иллюстрирует, что SP и SEOV позволяют эффективнее обнаружить спам, чем SN:

Интересна проблема скорости реакции на появление спама. Традиционно на выявление спама требуется время. Это хорошо видно на следующей кривой:

Предложенный авторами метод позволяет ускорить обнаружение спама.

Практические рекомендации

Чтобы снизить вероятность разметки сайта как спамного, нужно:

  1. Думать о счастье пользователя:
    • Размещать полезный контент и сервисы
    • Ссылаться на авторитетные источники
    • Обеспечивать удобную навигацию
  2. Стремиться получать трафик из различных источников
  3. Не привлекать плохо конвертирующийся трафик:
    • с низкокачественных и/или нетематических ресурсов
    • по объявлениям или ссылкам, не релевантным акцептору

Не используйте спам, привлекайте целевую аудиторию, цените время ваших пользователей. Удачи!

 

Семинар в Нетологии

Пару дней назад участвовал в двухдневном семинаре Лени Гроховского «Продвижение порталов и крупных интернет-магазинов». Рассказывал про подходы в seo-аналитике, приводил конкретные кейсы (в управлении ссылочной массой, оценке качества текстов, измерении свойств ссылочных доноров и пр.). Кажется, участники остались довольны и получили много полезного. Нескромно, но опубликую один отзыв:

«Спасибо Вам огромное за вчерашнее выступление, очень познавательно, безумно интересно, красивая презентация и четкая речь докладчика, — все это вчера Вы нам подарили.»

Чертовски приятно получать такие отзывы :)

Напоминаю, семинар в Нетологии по продвинутому seo и поисковой аналитике в ближайшую пятницу. Еще есть шанс успеть записаться 😉

Несколько дней назад я вел программу на Мегаиндекс.ТВ, в которой мы со Станиславом Ставским обсуждали возможности учета поведения пользователей для ранжирования документов. Главный фокус программы:  попытки накруток поведенческих факторов, реакция поиска на эти действия, перспективы. Наша точка зрения состоит в том, что у поиска много возможностей эффективно обнаруживать накрутки, что мы проиллюстрировали на примерах. Поэтому целесообразнее тратить время и ресурсы на улучшение сайта, что обеспечит естественное улучшение ранжирования.

При этом, конечно, хорошо бы понимать, что именно учитывают поисковые системы при анализе поведения пользователей в выдаче и на сайтах. Как ни странно, весьма немногие оптимизаторы и вебмастера знают о BrowseRank, технологии учета поведения пользователей от Microsoft (pdf, англ.). Хотя этой разработке уже 3 года, полагаю, она вполне актуальна. Read the rest of this entry

Реакция Яндекса на накрутку поведенческих факторов

Что же, давно ожидаемое событие произошло: Яндекс пессимизировал сайты, для которых накручивались поведенческие факторы.

С одной стороны, неплохо, что Яндекс пытается пресечь этот тренд в зародыше. В конце концов, учет поведенческих факторов — основной способ увести оптимизаторов от парадигмы ссылочного спама как единственного метода достижения позиций.

Вероятно, Яндекс учел прошлый урок, когда реакция на манипулирование ссылочным явно запоздала и многократно усложнилась ввиду масштаба явления. Пресечь злоупотребление ссылочным оказалось непросто, поскольку ссылками продвигаются и вполне качественные сайты. Таким образом, то самое «пользовательское счастье», о котором заботится команда Яндекса, однозначно пострадает при отключении или серьезном поражении ссылочного ранжирования, а это недопустимо. Поэтому мы видим постепенный процесс снижения роли ссылочного и замещения его другими факторами, в первую очередь — поведенческими.

С другой стороны, возникают вопросы о применении санкций. Понятно, что накрутка поведенческих может быть инициирована не только владельцем сайта. Соответственно, самая разумная реакция поиска —  игнорировать накрутку. Так ли это сейчас — большой вопрос. Возможно, Яндекс решил пойти по пути Google и это «публичная порка» нарушителей, аналогичная истории с J.C. Penney.

В любом случае, я желаю удачи Яндексу в борьбе с накрутками поведенческих и поздравляю с удачным размещением :)

А мы продолжим этот разговор со Станиславом Ставским в прямом эфире Megaindex.tv в пятницу, в 13.00, в программе «Обмани менЯ: теория фактов». Смотрите и задавайте вопросы :)

Страница 1 из 612345...Последняя »