оптимизация сайтов Archives

Смешные seo-калькуляторы

Устройство Пингвина :)

Имхо, неплохая статья: «Penguin Analysis: SEO Isn’t Dead, But You Need to Act Smarter». Microsite Masters проанализировали динамику в Google по нескольким тысячам доменов. Возможные критерии визита Пингвина:

Переспам анкор-листа

Как видно, существенно пострадали сайты, анкор-лист которых в существенной степени состоял из ключевых слов.

Отсутствие естественных ссылок

Мы исследовали естественный коммерческий анкор-лист на примере нескольких коммерческих, но не имеющих seo-ссылок, проектах. Выяснили, что чаще всего анкором выступает url или домен. Очевидно, в большинстве случаев «оптимизированный» анкор-лист выглядит иначе. Распределение от Microsite Masters по типу самых частых анкоров:

Видно, что риск встречи Пингвина высок, если наиболее частыми компонентами анкор-листа являются ключевые слова.

Низкая релевантность доноров

Видна неплохая корреляция с долей нерелевантных доноров.

Пути выхода из-под санкций и снижения рисков очевидны: нужно улучшать качество ссылочного. Можно мотивировать пользователей размещать ссылки, использовать партнерские отношения с тематическими порталами и пр. Имхо, уже давно стоит рассматривать ссылку не как инструмент влияния на робота, а как инструмент влияния на пользователя. Хорошая ссылка обеспечивает трафик и конверсию.

Пара отзывов

Несколько дней назад немного принял участие в семинаре по продвижению крупных сайтов. После семинара внепланово просидели еще пару часов в соседнем кафе, разбирая тонкости, подходы, особенности современного seo и аналитики. Пара писем вдогонку:

"Ваш доклад хоть и короткий по времени, но стал самой информативной частью 1 дня семинара.»
"Ваш доклад был самым крутым))) Спасибо."

Мне важно понимать, что мой труд востребован и оценен аудиторией.
Коллеги, спасибо и удачи в ваших проектах :)

Презентация с #allintopconf’2012

Несколько дней назад выступил на seo-конференции allintopconf. Было много вопросов, все кофебрейки ушли на ответы :)

Несомненно, радует рост спроса на аналитику. Это понятно — экстенсивные пути себя исчерпали, примитивного ссылочного давления недостаточно.

Как обещал, выкладываю свою презентацию:

И, конечно, спасибо за фотоотчет Юрию Михалычу 😉

Антиспам на основе анализа поведения пользователей

Исторически сложилось, что поисковые системы использовали упрощенные модели для извлечения сигналов для ранжирования и антиспама. По мере роста трафика и кликстрима стал возможным переход к более реалистичным моделям. Например, на смену модели случайного блуждания Pagerank пришли модели учета поведения реальных пользователей (Browserank и аналогичные алгоритмы).

Конечно, этот переход не означает безоговорочного отказа от традиционного Pagerank, но означает уменьшение его вклада в расчет релевантности документа в пользу новых возможностей.

Важно, что реалистичные модели обеспечивают не только лучший сигнал в ранжировании, но и и позволяют эффективно подавлять спам. Рассмотрим некоторые подходы, опубликованные в статье «Identifying Web Spam with User Behavior Analysis», Tsinghua University, Beijing, 2008.

Авторы решили две задачи:

  1. Выявлены поведенческие шаблоны, позволяющие эффективно обнаруживать спам,
  2. Создана платформа для обнаружения новых способов спама.

Технической базой для эксперимента послужил фрагмент лога поисковой системы sogou.com за 57 суток (лето 2007 года). Этот массив данных содержал 22.1 миллиона пользовательских сессий и 2,74 миллиарда кликов по 800 миллионам документов.

Шаблоны, хорошо характеризующие спам

Доля seo-трафика на документ

Определим долю seo-трафика (search engine oriented visit, SEOV):

Гипотеза проста: на спамные документы пользователи обычно попадают только через поисковую выдачу. Напротив, на качественные документы обычно существует не seo-трафик. Предполагаем, SEOV для спамных документов будет более высоким. Посмотрим на распределение качественных и спамных документов по интервалам SEOV:

 

Видно, что 82% хороших документов получили менее 10% трафика из поисковых систем. С другой стороны, для почти 60% спамных документов доля seo-трафика 40% и более. При этом всего 1% качественных документов имеет SEOV более 70%.

Документ как источник трафика

При клике по ссылке и источник, и целевая страница перехода фиксируются в web access  log’е. Любой документ может являться как получателем, так и источником трафика. Хотя спамные документы могут содержать большое количество исходящих ссылок, они обычно не порождают трафика на целевые страницы.

Определим долю случаев, в которых документ является источником трафика (source page rate, SP):

Из распределения документов по приведенному критерию видно, что SP для качественных страниц обычно больше, чем для спамных:

Почти половина спамных документов, присутствующих в training set’е, редко выступают источником трафика (SP < 5%). Лишь 7.7% спамных документов демонстрируют SP более 40%, доля качественных документов в этом же диапазоне SP — более 53%.

Доля коротких визитов

Очевидно, контент спамных документов не стимулирует пользователей проводить много времени на сайте. Определим долю коротких визитов (short-time navigation rate, SN rate):

Переменная N может варьироваться, исследователи установили ее равной 3. Физический смысл SN прост — это доля сессий, в которых было просмотрено менее N документов сайта.

Видно, что доля коротких визитов позволяет неплохо решить задачу выявления спама:

Алгоритм обнаружения спама, основанный на анализе особенностей поведения пользователей

Выявление спама — типичная задача классификации. Исследователи использовали наивный байесовский классификатор и рассмотрели одно- и многофакторную модели. Итоговая функция оценки вероятности документа быть спамным:

Детали реализации доступны в исходной статье.

Интересно, что предложенные факторы оказались практически независимы:

По-видимому, это связано с различной природой источников данных.

Алгоритм выявления спама:

  1. Сбор лога,
  2. Расчет SEOV и SP для каждого документа,
  3. Расчет SEOV и SP для каждого сайта (усредняя документные данные п.2),
  4. Расчет SN для каждого сайта,
  5. Расчет вероятности документа оказаться спамным.

Результаты

Обучив классификатор, разработчики алгоритма протестировали его на случайной выборке из 1564 сайтов. Асессоры сочли 345 сайтов спамными, 1060 не спамными, 159 — затруднились оценить. Построенная ROC иллюстрирует, что SP и SEOV позволяют эффективнее обнаружить спам, чем SN:

Интересна проблема скорости реакции на появление спама. Традиционно на выявление спама требуется время. Это хорошо видно на следующей кривой:

Предложенный авторами метод позволяет ускорить обнаружение спама.

Практические рекомендации

Чтобы снизить вероятность разметки сайта как спамного, нужно:

  1. Думать о счастье пользователя:
    • Размещать полезный контент и сервисы
    • Ссылаться на авторитетные источники
    • Обеспечивать удобную навигацию
  2. Стремиться получать трафик из различных источников
  3. Не привлекать плохо конвертирующийся трафик:
    • с низкокачественных и/или нетематических ресурсов
    • по объявлениям или ссылкам, не релевантным акцептору

Не используйте спам, привлекайте целевую аудиторию, цените время ваших пользователей. Удачи!

 

Написал про тренды и тенденции в seo на searchengines.ru:

Глобальный тренд в seo, на мой взгляд, рост интереса к аналитике и автоматизации. Это происходит по нескольким причинам:
 
1. Все сложнее находить малоконкурентные ниши,растет конкуренция в выдаче. Как следствие, продвижение требует большей компетенции. Аналитика позволяет находить эффективные решения (нестандартные алгоритмы сбора семантики, кластеризация запросов, оценка эффективности в срезах и пр.).
 
2. Поиск активно противодействует seo-прессингу.Прошло то время, когда легко было расти в seo чисто экстенсивно. Сейчас сложнее, примитивный ссылочный или текстовый спам не гарантирует хорошие позиции. «Оптимизатор», работающий по древней схеме вида «3000 уникальных символов контента + спам тайтла запросами + покупка ссылок в агрегаторе» имеет весьма низкие шансы на успех, особенно в конкурентных тематиках. Хороший оптимизатор должен понимать технологии и алгоритмы поиска, предлагать разумные гипотезы и проверять их экспериментально. Задача усложняется тем, что seo-рынок приучил копирайтеров спамить. Чтобы получить качественные тексты, нужно не только правильно формулировать требования, но и измерять результат. Особенно это актуально для крупных контентных проектов, им критически важно иметь лингвистическую экспертизу.

3. Крупный проект немыслим без автоматизации. 
Чем крупнее проект — тем большие ресурсы приходится тратить на сбор и обработку данных. Простые «наколенные» решения удовлетворительно работают лишь для небольших сайтов. Рядовой оптимизатор обычно не может спроектировать процесс сбора данных и алгоритмы анализа.
 
Запомнившиеся события уходящего года
 
Жесткие санкции за спам поведенческих. Отрадно, что поиск осознает важность задачи и пересекает такие действия. Хочется верить, что идея учета действий пользователей не повторит пути ссылочных алгоритмов.
 
Самые влиятельные специалисты отрасли
 
Исследователи в области IR и NLP. Эти люди разрабатывают интереснейшие технологии и алгоритмы, которые непосредственно влияют на SEO-отрасль. Спасибо им за эту работу, публикации и выступления на конференциях.Основная тенденция прошедшего годаSEO может быть не спамным и user-friendly. Понятно, есть нюансы. Но в целом — возможность легальными путями повышать видимость сайта не может не радовать. 

Мои комментарии в книге «SEO. Руководство по внутренним факторам» Леонида Гроховского

Довелось написать несколько страниц комментариев для книги Лёни Гроховского. Я был свободен в выборе тем и содержания, написал про:

  1. свое видение будущего факторов ранжирования,
  2. методы управления большими семантическими ядрами,
  3. способы генерации служебных частей документов на основе правиловых алгоритмов и статистики поисковых запросов,
  4. browserank,
  5. методы борьбы с поисковым спамом.

Для первых 3000 читателей — книга бесплатна :)

Интервью с Андреем Калининым, руководителем разработки Поиска@Mail.ru

Интересный и содержательный разговор. Наиль, спасибо за хорошие вопросы, спасибо за трансляцию пары моих вопросов :) Андрею спасибо за открытый подход и глубокие ответы. Мне показалось интересным:

  • продажные ссылки не только плохие, но и хорошие :)
  • стоимость продажных ссылок — фактор ранжирования в поиске
  • социальный сигнал достаточно объемен, можно использовать его как документный фактор
  • сервисы для вебмастеров на подходе 😉
  • аналитических сервисов в публичном доступе пока не стоит ждать :(
  • … и много что еще :)

Рекомендую посмотреть:

Впечатления от seomoscow’2011

Пару дней назад на конференции SEOMOSCOW рассказал о возможностях seo-аналитики. Рассказал о наработках в области анализа эффективности поискового продвижения, применении лингвистики для решения seo-задач, источниках данных и алгоритмах их обработки, и о многом другом. Жаль, было мало времени, поэтому «галопом по Европам». Поскольку многим был интересен доклад, выкладываю его в публичный доступ:

 

Приятно порадовал интерес аудитории к этой теме, еще час отвечал на вопросы в кулуарах. Письмо одного участника:

Михаил, приветствую!
Позавчера слушал доклад на seomoscow. Откровенно говоря, вы вместе с Дмитрием Сатиным произвели на меня самое большое впечатление на конференции. Сам занимаюсь автоматизацией, конвейерами, поэтому да, аналитика — это мое. Академический интерес — децентрализованные соц.сети, пишу по этой тематике диссер. Кстати говоря, в январе буду слушателем курсов от топэксперт.рф, думаю, там познакомимся ближе.Еще раз спасибо за доклад!

Такие отзывы, безусловно, радуют. Спасибо :)

Тем, кто хочет услышать детали, рекомендую свой семинар в Нетологии «Seo-аналитика — ключ к эффективному продвижению», который пройдет в ближайший  вторник, 20-го декабря.

 

SEO-аналитика — что и как стоит делать

Завтра расскажу в Аналитикуме о своем подходе к аналитике. Разберем источники информации и данных, обсудим инструменты, поговорим об основных областях поиска новых идей. Конечно, обсудим актуальную тему — где и чему учиться.

Передача завтра, в 10.30, на канале Megaindex.tv. Задавайте вопросы 😉

Страница 1 из 712345...Последняя »