Пользователь сам пополняет индекс (про Яндекс)

9 Авг
2011

Проблема обнаружилась в начале июня, когда к нам обратился пользователь, с жалобой на публикацию документа, предназначенного для печати в поисковой выдаче Яндекса. Путем несложного анализа, пользователю был сообщен URI форума, где он сам разместил эту ссылку (признаюсь, на тот момент у меня тоже не было установлено дополнительных ограничений, правда проблема с моей стороны была решена в тот же день, еще до переписки с тех. поддержкой Яндекса) — казалось бы, что ССЗБ, и можно забыть, но нет… Я начал копать подробнее, и помощью простого поискового запроса (уже с site:***) обнаружил выдачу еще кучи таких же ссылок. Странно, никакой метрики, analytics и прочих внешних статистик на сайте нет и не было. Для начала, я собрал все идентификаторы, которые получил из поиска. (Да, конечно, проверил аналогичные запросы в гугле — безрезультатно) А теперь, самое интересное — смотрим по базе email-ы пользователей, которые участвуют в выдаче… Далее цитирую части моей переписки с сотрудниками техподдержки (итог в конце) с целью понять источник проблемы.11 июня (собственно, описание проблемы) Поиск яндекса индексирует ссылки (и выводит в общий доступ), находящиеся в личной переписке пользователей, пользующихся почтой яндекса. Все очень просто: запрос «ключевое слово site:[домен]» выводит страницы, созданные для пользователей, которые другие поисковые системы (google) «не знают», а все адреса клиентов (более 50 разных) размещены в доменах @yandex.ru @ya.ru. Ссылки для клиентов, указавших другие адреса в других доменах (более 700) не выводятся. К счастью, получение дальнейшей информации закрыто. Вывод очевиден. Считаю, что это, как минимум неэтично (а в действительности сильно страдает безопасность ваших пользователей) и прошу устранить указанную проблему или указать на ошибку в моих рассуждениях.15 июня (коротко и ясно) Не могли бы Вы привести пример запроса, иллюстрирующий проблему? 15 июня Хорошо, давайте избавимся от анонимности. Для примера, так — запрос «****** site:******» …. Вопрос: откуда взялись такие ссылки? ( «А почему их\(ничего подобного) нет в гугле?») Обладая базой клиентов могу сказать, что все их адреса на яндексе (один на mail.ru; ); другие ссылки для клиентов , email которых находятся не на яндексе — не выводятся.16 июня (естественно, не скажут… коротко, курите маны) К сожалению, у нас нет возможности указать, где именно робот обнаружил данные ссылки. Если Вы не хотите, чтобы они индексировались, рекомендуем Вам запретить их в Вашем файле robots.txt, 16 июня (с моей стороны на повышенных тонах) Как именно понимать «нет возможности указать, где именно робот обнаружил данные ссылки»? Вы это физически не можете (смешно) или политика компании запрещает это делать ? Я вам указал, где робот обнаружил ссылки — в почте ваших пользователей — и вывалих их в общий доступ, вы можете это опровергнуть? 21 июня (а вот теперь самое главное) Мы внимательно изучили, каким образом приведенные Вами страницы попали в поисковую выдачу. Можем Вас заверить, что никоим образом ссылки не могли попасть к индексирующему роботу из Я.Почты. Что касается причины индексирования указанных ссылок, то, очевидно, дело в том, что у некоторых пользователей, перешедших по указанным ссылкам, был установлен Яндекс.Бар (http://bar.yandex.ru/) с включенной функцией «Индекса Цитирования». Об этой функции написано в Лицензионном соглашении Бара (http://bar.yandex.ru/ie/agreement.xml): см 5.1Таким образом, пользователь осознанно предоставил Яндексу данные о посещенных страницах. На основе этой автоматически собранной и анонимной информации поисковые алгоритмы могут обнаруживать новые страницы и принимать решение об оперативном включении их в индекс. Реально, я сомневаюсь, что пользователь читал, с чем согласился. 😉 Далее переписка продолжилась, т.к. мне показалось странным, что Яндекс.Бар только у тех, у кого почта на Яндексе, но анализировать это возможности и желания уже нет. Независимо от результата, считаю, что виноват разработчик, т.к. запросив в этой ситуации всего-навсего любой код подтверждения от пользователя, указав его в письме, (да хоть примитивную каптчу распознать — это сделано для тех, кому уже ушло письмо без кода) в случае, если не установлена переменная сессии можно гарантированно избавить указанную страницу от индексирования.
По материалам Хабрахабр.



загрузка...

Комментарии:

Наверх