наука и технологии Archives

Google хорош ;)

Попробовал искать по своим фотографиям в G+, получилось неплохо. Бывает, ошибается, но многое находит верно:

sea

 Да, панда не в море, она в зоопарке 😉 Правда, кейс сложный — снег на траве под лапами панды очень смахивает на пену прибоя :)

А с ночными фотографиями все отлично получилось:

night

И с тигром в пекинском зоопарке тоже:

tiger

Круто, технологии :)

Почему Крипта ошибается?

Очень разумный комментарий:

При этом задача Крипты — скорее, в том, чтобы вычленить паттерны поведения в интернете, характерные для той или иной группы, чем выявить фактическую информацию, к примеру, стоит ли в паспорте штамп о замужестве или нет.

Очевидно, Крипта и аналогичные технологии находят свое главное применение в поведенческом таргетинге. А для этой задачи совершенно не нужно знать, кто пользователь на самом деле. Важно, что ему интересно и как он себя ведет.

Сергей Шаров про извлечение жанра и характеристик автора текста

Еще одна стоящая лекция:

«Как обрабатывается запрос в Интернете», лекция Андрея Плахова (Яндекс)

Пару месяцев назад в Политехническом музее прошел цикл лекций из цикла «Компьютерная лингвистика». Андрей Плахов, разработчик поиска Яндекса, рассказывал о методах обработки поискового запроса. Рекомендую:

Антиспам от seo-команды

Примерно месяц назад Ирина Борисова, лингвист из отдела поисковой аналитики, выступила на конференции «Прикладная лингвистика и искусственный интеллект 2012» с докладом «Лексическая статистика в оценке качества коммерческих текстов».

Коллеги проявили большой интерес к её выступлению. Это понятно, поскольку речь шла о совершенно неординарном для seo-рынка событии — разработке антиспама. Ирина рассказала о некоторых подходах и методах для оценки качества и спамности текстов. Презентация доклада:

Хочется верить, что тренд на «обеление» seo будет поддержан рынком, ведь аналитика и маркетинговые исследования дают гораздо больший профит, чем примитивный спам поисковых машин.

Книга «Введение в информационный поиск». Рекомендую!

Я узнал о готовящемся издании этой книги почти одновременно из трех источников: из сообщения на Хабре, из призыва Ильи Сегаловича помочь с переводом и из блога Виктора Штонда. И вот, осенью эта книга появилась в продаже. Купил сразу, ведь это первое и пока единственное издание на русском языке по этой тематике.

Однозначно рекомендую людям, желающим понимать принципы устройства современных поисковых систем. Регулярно охватывает восторг от понимания, насколько элегантно могут быть решены сложные задачи. Что-то цитировать не буду, лучше читать первоисточник. Просто отличная книга, не пожалеете!

Отдельная ценность в «заметках на полях» Ильи Сегаловича :)

Для тех, кому проще читать по-английски, официально доступна полная версия в pdf.

PS. Книга строго для тех, кто интересуется всерьез. Рецептов «как прокачать тиц», понятно, нет. И это хорошо :)

Государственному поисковику — быть…

Идиотизм, как ни посмотри. Очевидно, Гпоиск будет искать хуже, чем лидеры рынка. Даже не нужно аргументов, это совершенно очевидно. Если мне не изменяет память, Волож говорил, что Яндекс готов сделать отдельную выдачу для госсайтов, без проблем. Но это слишком просто и эффективно. Видимо, в данном случае опять станем свидетелями «освоения» полумиллиарда рублей.

Архитектура поиска Яндекса

Когда-нибудь нужно собрать воедино всю доступную информацию об устройстве поиска Яндекса. Уверен, это будет интересное и полезное чтиво :) Пока могу порекомендовать весьма интересный доклад Петра Попова на конференции YaC 2010, проведенной Яндексом 1-го октября. Петр рассказал о среднем и базовом  поиске, шардах и многом другом:

PS. На вопрос «зачем это нужно сеошнику?» ответ очень простой — плохому seo-шнику, и правда, незачем. Вообще не нужны знания, нужна кнопка в сеопульте. Те, кто исповедует белые методы продвижения, просто обязаны хорошо понимать принципы работы поисковой системы. Без этого — никак :)

Яндекс на SIGIR

Команда Яндекса приняла участие в конференции SIGIR-2010. Обсуждались проблемы и подходы в области поиска информации. Доступна презентация в ppt. Довольно подробно описан подход к одному из основных трендов — регионализации выдачи.