d1z-zone
Антифрод или накрутка поведенческих факторов - D1z-ZoNe.Ru Форум
  • Страница 1 из 1
  • 1
Антифрод или накрутка поведенческих факторов
LooneyДата: Среда, 25.05.2011, 17.16 | Сообщение # 1
Группа: Пользователи
Сообщений: 100
Репутация: 0
Антифрод - есть ли шансы у накрутчиков поведенческих факторов

Что такое «антифрод»? Это выражение пошло от английского слова «fraud», которое означает «мошенничество». Впервые этот термин был применен к платежным системам, где и появились фродовые пользователи, т.е. мошенники.

Когда, в конце 90-х годов, появилась баннерная реклама, у тех, кто ею занимался, появилось естественное желание накрутить показы или клики, соответственно баннерной системе приходилось с этим бороться. Таким образом, антифрод был известен еще тогда.

Когда появилась контекстная реклама, естественно народ почуял, что можно заработать легкую денежку, накликивая ее, и радостно этим занялся. По оценкам западных компаний, количество фродовых кликов в общем потоке составляет от 20 до 25%, и этот процент растет с каждым годом.

Антифрод в ранжировании. Некоторое время назад Яндекс заявил о том, что он учитывает поведенческие факторы в ранжировании результатов поиска. То есть, сделав такое заявление, мне кажется очевидным, что Яндекс понимал, что все оптимизаторы тутже бросятся накручивать поведенческие факторы, пытаясь повысить свои сайты в результатах поиска, и наверняка у Яндекса есть от этого хорошая защита. А мы с вами знаем, как Яндекс умеет защищаться.

Что такое поведенческие факторы? Об этом можно много чего прочитать в интернете, но с точки зрения поисковой системы, поведенческие факторы – это просто клики в логах, т.е. специальные файлы, в которых фиксируются действия пользователей, действия пользователей – это клики. Соответственно, можно сказать, что поведенческие факторы – это счастье пользователей, выраженное в кликах.

Как накручивают поведенческие факторы? В общем и целом накручивают неестественно. Почему? Понятно, что никто не будет накручивать запрос [как самостоятельно установить пластиковые окна], а вот просто [пластиковые окна] накручивать будут, потому что этот запрос коммерческий. Соответственно, все понимают, что накручивать стоит только коммерческие запросы. Если налицо перекос в пользовательских факторах для какого-то сайта по коммерческим запросам, это, с точки зрения поисковой системы, может считаться неестественным и приниматься к рассмотрению для дальнейшей обработки.

Также неестественность накруток выражается в том, что накрутка происходит только с одного источника. Допустим, есть поисковая система Google, оптимизатор хочет накрутить клики в выдаче по какому-то запросу, он это делает, а Google получает информацию о том, что у такого-то сайта повысился CTR. Известно, что Google поставляет свои результаты поиска некоторым крупным порталам, таким как AOL и Netscape, получается, что в AOLe и Netscape нет никакой активности, а в Google – есть. Соответственно – неестественно.

Какой дальнейшей обработке такие запросы или сайты могут подвергаться? Как известно, поисковая система использует большое количество факторов ранжирования. По заявлениям Google, у него двести факторов, по заявлениям Яндекса – несколько тысяч. Соответственно, поведенческих факторов из них, по моим предположениям, несколько десятков, а явно не один и не два, и не четыре. Поэтому, когда происходит накрутка темже самым, извините за выражение, юзератором, то накручивается только один из факторов – клики в выдаче, поднимается CTR, а другие факторы не трогаются. Делаем вывод о том, что накрутка только одного из факторов тоже выглядит неестественно для поисковой системы.

Следующее, что может выглядеть неестественно, это неподверженность естественным колебаниям трафика. Существуют естественные колебания трафика, например, в выходные наблюдается уменьшение трафика по коммерческим запросам в два, а то и более раз. Если, к примеру, кто-то зарядил денег в систему, которая начинается на Мега, а кончается на Индекс, то она будет накручивать равномерно, никакой просадки трафика по выходным дням не будет. Это тоже будет выглядеть неестественно. Как впрочем, и отсутствие колебаний трафика в течение суток, когда люди уходят на обеденный перерыв, вечером уходят домой и т.д. Понятно, что когда происходит накрутка, про это, конечно же, немножко забывают.

Таких неестественных вещей довольно много, я просто перечислил первое, что пришло мне в голову.

Как же работает антифрод? Понятно, что ищется любое неестественное поведение пользователей, какие-то аномалии и пики. Допустим, берутся лог-файлы с кликами или с логами расширения для браузера, а-ля Бар, и смотрится все, что связано с определенным сайтом, выискиваются аномалии, неправильное поведение и т.д. и т.п. Точно также ищутся группы пользователей, которые выделяются неправильным, аномальным поведением. И еще одной задачей антифрода является найти запросы, по которым производится накрутка.

Как это работает на уровень ниже. Поисковые системы обрабатывают огромное количество логов, логи с собственных серверов, с поиска, логи с почты и со сторонних сайтов, которые они собирают разными путями (Google Analytics или Google Bar). Количество этой информации огромно, лог-файлы занимают много места. Я тут произвел примерные расчеты, у меня получилось, что минимальный объем лог-файла составляет один терабайт в сутки:

Min = ~100М*~10= ~1млрд строк*~1000символов = ~1ТБ/сутки

Как же поисковые системы решают эту задачу по обработке такого большого количества информации? Очевидно, что происходит деление алгоритмов на быстрые и медленные. Для того чтобы хорошо побороться с накрутками, нужно смотреть на динамику в течение довольно длительного промежутка времени, т.е. агрегировать лог за месяц. Это, повторюсь, огромное количество информации, и это медленный алгоритм. На мой взгляд, одним из решений является ограничение полноты ради удешевления и скорости работы.

Что это значит? Это значит, что мы можем обработать только один лог, или только часть каких-то самых подозрительных пользователей по какой-то подозрительной тематике, по каким-то коммерческим запросам. Поисковые системы, только если у них есть какие-то подозрения, берут и внимательно просматривают именно этих пользователей, конкретно по этим запросам. При этом, как мы видим, полнота может уменьшаться, зато оперативно решаются какие-то срочные задачи.

Выводы: часть операций выполняется быстро, часть операций выполняется медленно. Из этого следует, что простая накрутка отсекается сразу - это очевидно. Хитрая же накрутка отсекается через некоторое время, когда Яндекс поисковая система обрабатывает большее количество информации. Следовательно, возможно временное улучшение позиций при накрутке. Можно оказать какое-то влияние на результаты поисковой выдачи (сам я этого делать не пробовал, могу только предполагать), но все равно через некоторое время все эти накрутки будут нивелированы антифродом.

Ну и под конец рассмотрим несколько примеров:

Пример 1. Секретарша с поисковым баром (при желании масштабируется до 10 секретарш) – бесполезно, так как все они входят с одного айпишника, и поэтому отсекаются сразу же.

Пример 2. Система «скачай экзешник, который эмулирует explorer». Чем отличается этот экзешник, эмулирующий explorer? Он отличается отсутствием плагинов, баров и т.д. Допустим, кто-то накручивает CTR себе по какому-то запросу, а поисковая система может легко и просто посмотреть CTR пользователей с баром и CTR пользователей без бара. – Вот юзераторы и палятся сразу же.

Пример 3. Так называемая накрутка «за сотым километром». Допустим, с помощью вашей системы кто-то хочет подняться со 101-го места в топ-10, что происходит? У сотого места CTR околонулевой, у 102-го тоже стремится к нулю, а у 101-го вдруг CTR стал огромный, - все это, конечно же, неестественно, и тут же поисковой машиной палится. Опять же, сужается пласт запросов, которые можно поднять с помощью примитивной накрутки. И совершенно точно нельзя с помощью накрутки поднять сайт, который находится далеко «за сотым километром».

Пример 4. Накрутка «через прокси». Пожалуй, это самый очевидный для оптимизаторов метод, напарсить или купить себе прокси и через них что-то делать. Что происходит в этом случае. У Яндекса хранится очень большое количество информации про то, с каких айпишников, какие пользователи к ним приходят и что делают. Соответственно проксями пользуется там не один человек, а прокси там общедоступные. И с них там чего только не делают, например, рассылают спам (у Яндекса есть почта, кстати, и у Гугла тоже), допустим парсят выдачу, напарываются на капчу… Взяли короче всех, кто напарывается на капчу, и исключили из ранжирования, например. Легко! На самом деле поисковым системам приходится в контекстной рекламе отсекать до 30% кликов. При отсечении каких-то пользовательских аномалий поисковики перестраховываются, они предпочитают не учесть какое-то количество реальных пользователей, но зато исключить и все накрутки. Тоесть, за счет не очень точной работы они повышают полноту. И это правильно.

В общем, накрутка через прокси - не катит. Вообще никакая накрутка не катит.

Пример 5. «Ботнет». На самом деле это тоже самое, что через прокси накручивать. Давайте лучше не будем про это. «Ботнет» - это вообще уголовно наказуемое деяние, никогда не пользуйтесь «ботнетом»!

Примеры закончились, теперь я расскажу, почему все накрутки отсекаются.

Самый убойный аргумент такой – любая поисковая система может взять некую эталонную выборку хороших пользователей (например, всех сотрудников Google и их родственников с установленным Google баром) и сравнивать все подозрительные и аномальные явления с этой эталонной выборкой. Если что-то не совпадает, идет не так – то оно подлежит немедленному отсечению.
На мой взгляд, эталонная выборка – это самый весомый аргумент, который позволяет поисковым системам бороться с накруткой поведенческих факторов. И главное, как тут ни крути, а попасть в нее нельзя, вы же не сотрудник Google, и даже не родственник, поэтому вы в эту эталонную выборку никак не попадаете.

Накрутку поведенческих факторов поисковику достаточно легко заметить по следующим признакам:

- неестественная накрутка, только по коммерческим запросам: eсли налицо перекос в пользовательских факторах для какого-то сайта по коммерческим запросам, это, с точки зрения поисковой системы, может считаться неестественным и приниматься к рассмотрению для дальнейшей обработки.

- накрутка кликов только с одного источника. Поиск Яндекса работает не только на Яндексе, но и, например, на Qip.ru. Если кликабельность одного и того же сайта в выдаче Яндекса растёт, а в выдаче Qip.ru остается прежней - это сигнал неестественности изменений.

- накрутка только части поведенческих факторов. У Яндекса несколько тысяч факторов ранжирования, к поведенческим из них относится несколько десятков, по мнению Ставского, больше четырех десятков. Накрутчики воздействуют на один, в лучшем случае несколько, но явно не на все. Поисковая система замечает перекос.

- неподверженность трафика на сайт естественным колебаниям. Таковые могут быть связаны, например, с выходными или праздниками, с временем суток - по некоторым запросам и для некоторых сайтов чётко отмечается зависимость трафика от режима дня целевой аудитории. Системы автоматической накрутки поведенческих факторов не учитывают естественных колебаний.

Чтобы отследить накрутку поведенческих факторов, Яндексу приходится анализировать огромное количество информации из логов. Чтобы оптимизировать этот процесс, Яндекс делит информацию на две части - ту, которая обрабатывается быстро, и ту, которая обрабатывается медленно. В "быстрой" части поисковик может обрабатывать информацию только о части "подозрительных" пользователей, по "подозрительным запросам" или в "подозрительной" тематике. Разделение позволяет оперативно отсекать простую накрутку, а после обработки остальной информации - более хитрую.

А Александр Садовский в своем интервью допустил возможность появления в выдаче Яндекса "социальной разметки" ссылок в том случае, если Яндекс найдет хорошее решение по ее внедрению. Но, судя по словам Александра, Яндекс предпочитает использование социальных сигналов, собранных непосредственно в социальных сетях.


http://progamerok.ru
vk.com/Latte_Makiato
R446689865182
 
  • Страница 1 из 1
  • 1
Поиск: