Как поисковые системы борются со спамом

Настоящим окном в мир Интернета давно стали поисковики. Именно в поисковую строку Google, Bing, Yandex, Yahoo или любого другого поискового ресурса мы вводим запрос того, что хотим найти во Всемирной паутине.

Было бы странно, если бы этим свойством человека не воспользовались злоумышленники или рядовые рекламные агенты, выводя свои сайты с низкокачественными или откровенно маркетинговыми материалами в топ поисковой выдачи. Возможно, это имеет какой-то эффект для рекламной отдачи, но это точно раздражает пользователей, вынужденных перелопачивать горы мусора в поисках интересующих их данных.

Современная война поисковых систем со спамом напоминает настоящую бойню. Поисковые гиганты постоянно оттачивают и усложняют инструменты и алгоритмы, отделяющие информационный мусор от полезных сведений. Кроме того, не последнюю роль в борьбе со спамом играет и психология, позволяющая понимать мотивы спамера.

Тайная война

Что такое спам? Это, в нашем случае, web-страница, владелец которой использует технологии продвижения SEO, с помощью которых хочет перехитрить алгоритмы поисковика и занять топовые позиции в поисковой выдаче, благодаря чему накручивается количество посетителей рекламного сайта. И хорошо, если на этом ресурсе лежит просто невинный рекламный буклет – всё больше сайтов, набитых спамом, превращаются в настоящие рассадники Интернет-эпидемий, рассылая вредоносные программы, и встраивая зловредные коды на системы пользователей.

Если мы хотим, чтобы Интернет приносил нам пользу, бесполезный спам нужно постоянно отсеивать, иначе Всемирная паутина быстро превратится в сплошную доску объявлений и рекламных статей. Кроме того, из-за засилья спама полезные и нужные web-страницы просто теряются где-то на дне списка поисковой выдачи. Нельзя забывать и о необходимости постоянно пресекать потенциальные вирусные эпидемии, источником которых могут быть всё те же рекламные страницы. Наконец, уменьшение количества спам-ресурсов улучшает экосистему Интернета, снижая объёмы трафика. Нельзя забывать и о том, что поисковый рейтинг занимает аппаратные ресурсы, имеющие ограниченный объём – если почистить их от спама, это освободит место для полезных ссылок.

Противоспамовая защита поисковика – например, Google – как правило, состоит из двух частей. На страже информационной чистоты стоят автоматизированная система и команда экспертов-аналитиков, которые подчищают руками то, что не заметил компьютер. «Команда антиспам» Google, подобно секретной службе, базируется в нескольких точках планеты, каждую минуту очищая Интернет от мусора. В свою очередь, поисковик корпорации Microsoft – Bing – больше полагается на автоматизированные фильтры. Поэтому в рядах Microsoft куда меньше аналитиков, и больше психологов, которые консультируют программистов относительно мотивов поведения спамеров. Благодаря этой информации люди могут постоянно совершенствовать компьютерные протоколы, зачищающие информационный мусор.

Авгиевы конюшни Интернета

Борьба поисковых систем со спам-сайтами напоминает дуэль двух фехтовальщиков, вооружённых щитами и мечами. Злоумышленники постоянно маскируются и всячески пытаются защитить свои сайты. В свою очередь, поисковые системы и стоящие за ними люди совершенствуют методы распознавания спама и усложняют злоумышленникам жизнь, модернизируя поисковые алгоритмы. К слову, именно поэтому поисковые системы держат в тайне точные спецификации своих алгоритмов.

Основной мотив создателя очередной спам-страницы – заработок, ведь распространение спама давно превратилось в выгодный бизнес, которым, зачастую, не брезгуют даже крупные рекламные агентства. Впрочем, здесь немало исключений. Отдельные злоумышленники ведут свою деятельность по политическим мотивам, или же пытаются, таким образом, самовыражаться. Но большинство всё же имеет банальный финансовый интерес. Самый простой способ заработать денег на спаме – демонстрировать рекламные объявления. Чем больше людей просмотрит рекламу, тем выше доход спамера.

Понимая мотивы злоумышленников, поисковые системы давно разработали список параметров, которые анализирует компьютер. В первую очередь, внимание обращают на качество материалов – поскольку спамер желает банально заработать на рекламе, то наполнение страницы осуществляется за счёт низкокачественных текстов, набитых тэгами для поисковиков. Качество материала на странице определяет детальный анализ сотен факторов, включая количество символов, уникальность слов и так далее. Следующий параметр, имеющий значение для поисковых фильтров – наличие на странице рекламы. Каждая страница в Интернете сегодня содержит некоторое количество рекламных материалов, что, однако, не делает её спамом. Показателями рекламной чистоты страницы являются количество объявлений на экране, их тип – баннеры, всплывающие окна и тому подобное – а также, их навязчивость. Кроме того, автоматические фильтры оценивают вёрстку страницы, анализируя размещение материала и рекламы. Социальные сигналы – ещё один важный показатель для аналитиков, поскольку качественные статьи обсуждают в социальных сетях, тем самым доказывая, что данная конкретная страница не относится к категории спама.

Цифровая куча мусора

Но вот спамер создал свою страницу в Сети. Теперь он хочет максимизировать свои доходы. Для этого, злоумышленники могут автоматически «подселять» на свои сайты чужие материалы, использовать программы автоматического генерирования текстов и даже популяризировать страницы с неуникальными материалами. Для повышение рейтинга в поисковой выдаче спамеры предельно насыщают сайт ключевыми словами, манипулируют ссылками, замусоривают форумы своими сообщениями и даже добавляют невидимые пользователю материалы, перенаправляющие его на спам-сайт.

В свою очередь, поисковики постоянно меняют алгоритмы своей работы – это, кстати, можно заметить невооружённым глазом. Обратите внимание, когда поисковик на один и тот же запрос выдаёт разные результаты, что свидетельствует как раз об обновлении поискового алгоритма. Такие обновления осуществляются, в среднем, раз в год.

Читатель может подумать, что попасть на спам-сайт не так-то просто, и это, в основном, удел завсегдатаев торрент-треккеров и сайтов с материалами «для взрослых», однако, это популярное заблуждение. Web-спам всегда рядом, чем бы Вы ни занимались в Сети. Ссылки на спам-страницы скрываются на форумах, в сообщениях социальных сетей, файлообменниках, личных блогах и рекламных объявлениях, демонстрируемых самими поисковиками. В 2011 году аналитики Google признали, что большая часть вредоносных ссылок скрывается, непосредственно, в топе их поисковой выдачи. На обновление алгоритма поиска тогда потратили миллионы долларов, в результате чего Google начал выдавать на 130 млн спам-сайтов меньше. Представители поисковых систем сегодня признают, что все победы в войне со спамом краткосрочны, а полностью избавиться от цифрового мусора, судя по всему, они не смогут никогда. Впрочем, работа идёт постоянно. На сегодняшний день самым безопасным поисковиком общепризнано считается Google – он показывает всего 272 спам-сайта на 10 млн ресурсов в поисковой выдаче. Тот же параметр для Bing составляет 1 285 вредоносных сайта, а для Яндекс –3 330.

Читайте также:

Чому спам називається спамом: несподівана історія популярного терміна

Сумчасті перешкоди — як Volvo готується до випуску безпілотника

Шведська терапія — для чого IKEA замінила назви на пошукові запити

Голосовое достижение Microsoft, платный Tinder, «зелёный» Airbnb и кое-что ещё