Показать сообщение отдельно
Старый 16.04.2009, 19:02
#1
Специалист
 
Пол: Мужской
Регистрация: 02.10.2007
Сообщений: 837
Благодарностей: 163
Ликбез рекламодателю по борьбе с накрутчиками (Ребятам о вордстате)

Ребятам о вордстате
Поскольку мне надоело повторять на разные лады одно и то же, сведу воедино и закрою тему аборта и оружия. По крайней мере, для нормальных людей ― а остальным уже ничто не поможет.

Исходные данные: группа товарищей обнаружила, что количество запросов 'сделать аборт', 'купить оружие' и т.п. резко выросло в октябре-ноябре. Ну и далее по накатанной, включая мнение экспертов ИА REGNUM в новостях.

Наша задача ― научиться делать правильные выводы по этой статистике.

Лирическое введение
Прежде всего, это не курс «Введение в вордстат» ― я не буду учить им пользоваться, а расскажу, куда смотреть, чтобы правильно интерпретировать количество запросов. Сначала теория, а потом на практике разберем этот 'аборт' с 'оружием'.

В введении же должны рассказывать совсем о других вещах: откуда берется эта статистика; про синтаксис запросов; что статистика запроса включает статистику всех подзапросов; за что и на сколько банят в вордстате (а там на редкость дурная баннилка) и где смотреть его статистику, после того как вас забанили; почему баранину не стоит рекламировать по запросу 'баранина'; что это за слова в правой колонке; рассказывают, что запросы в правой колонке строятся как раз к каждому запросу, а не к группе запросов; почему в «что еще искали» часто проскакивает всякая фигня; почему у 'киркоров' и 'пугачева' правая колонка идентична, а с запросом 'реакция манту' часто ищут 'хачапури', 'чахобили' и 'узбекский плов'.

Впрочем, для понимания этого текста знание всех основ не потребуется ― достаточно только примерно понимать, что показывает вордстат. Опираться буду на здравый смысл.

Теперь поехали.

Из чего вообще складывается статистика запроса?
1. Общие сезонные колебания.
Количество и активность пользователей Сети постоянно меняется. Основные тенденции: летом и в выходные народу меньше, с каждым годом народ прибывает. Если нам интересна динамика, то смотреть нужно не на абсолютные показатели, а на изменение интереса относительно общей динамики.

Специально для просмотра относительных изменений есть «относительная шкала». Скажем, запрос 'найти работу' вырос с сентября примерно в 1,4 раза. Однако тот же запрос на относительной шкале не показывает никакого роста, т.е. обусловлен исключительно ростом общего числа запросов.

Второй способ ― можно посмотреть на общее количество запросов. Для этого нужно посмотреть на динамику распространенных слов: как, mp3, скачать, порно ― и потом примерно прикинуть среднее значение. Получается, что в среднем число запросов выросло в 1,4 раза. Соответственно, об относительном росте можно говорить, только если он выше этого числа.

2. Тематические сезонные колебания.
Тут все просто: рефераты ищут в декабре и в мае, экзамены сдают в январе, мае и июне, а подарки ищут в феврале и в декабре. Здесь стоит удивляться, если вдруг эти колебания отсутствуют (скажем, в марте почему-то подарками не интересуются).

Характерный пример ― в Google.Trends четко виден ежегодный всплеск интереса к спиду в конце ноября ― начале декабря. Но не спешите делать выводы о всплеске заболеваемости: просто 1 декабря отмечается Всемирный день борьбы со СПИДом.

3. Все запросы, содержащие эти слова.
Обратите внимание: вам показывают не статистику запроса 'купить оружие', а статистику всех запросов, содержащих слова 'купить' и 'оружие' во всех формах. Т.е. если Украина купила оружие массового поражения, был принят закон о купле оружия или Тимати написал новую песню «Слышь чувиха я тут оружие купил» ― все это отразится на статистике фразы 'купить оружие'.

Ну и учтите, что слова, набравшие менее 5 запросов в месяц, вам не покажут ― т.е. есть еще невидимый длинный хвост из «совсем низкочастотников».

4. Спровоцированный интерес.
Скажем, в октябре 2007-го кто-то продвинул сайт Мегафона на первое место в Яндексе по слову '****о' (можно я про линкбомбинг хотя бы не буду рассказывать, а?), и об этом написал «Коммерсантъ» ― неудивительно, что в вордстате был отмечен резкий всплеск интереса к ****у.

Аналогично, в следующем месяце нас ждет серьезный спровоцированный рост по словам 'сделать аборт' и 'купить оружие' ― и хотя для кого-то это будет доказательством дальнейшего падения моральных устоев, это всего лишь пример спровоцированного интереса.

5. Автоматические запросы.
Ежедневно в Яндекс и Гугль делается тысячи автоматических запросов. Как правило, в SEO-шных целях раскрутки сайтов: узнать позицию в выдаче, поискать форумы, чтобы их потом заспамить, посмотреть, как индексируются свежие дорвеи, и т.д, и т.п. Все это потом валится в вордстат.

6. Баги.
Я их в вордстате не припомню (за исключением пары багофич, здесь не влияющих), но все может быть.

7. Нормальные запросы.
Ну вот и добрались наконец. Действительно, нормальные запросы пользователей ― далеко не единственный и часто не самый значимый параметр.

Теперь стоит определить понятие нормальности. Отдельным блоком, пожалуй.

Как распознать нормальные, естественные запросы?
Нормальный, естественный интерес пользователей распознается по ряду признаков:

― Ожидаемый набор запросов. Если же кто-то начнет утверждать, что самые популярные запросы в интернете ― вовсе не 'порно', 'скачать' и 'реферат', а 'клавирный концерт ре минор' ― это повод не удивиться, а посмеяться.

― Постепенный рост интереса. Вот, скажем, примерно так должен выглядеть типичный рост интереса на примере запроса 'вконтакте'.
Соответственно, резкий взлет в десять раз за один месяц (см. 'аборт') ― это признак неестественного роста (т.е. либо спровоцированный запрос, либо автоматика, либо баг).

― Распределение по регионам. Опять же, на примере 'вконтакте' можно посмотреть на нормальное региональное распределение: присутствует множество регионов, распределение показов примерно соответствует числу активных русскоязычных интернет-пользователей в регионе, нет серьезного перекоса в столбце «региональная популярность».
Соответственно, если в статистике по регионам есть только Москва, на которую приходится 94% процента всех запросов (см. 'сделать аборт') ― то это значит либо накрутку с московских IP, либо что москвички в ноябре возглавили всемирное движение «За аборты!».
Или, скажем, запрос 'купить' ― и зашкаливающая доля запросов из Германии, Бразилии, Китая и Японии (суммарно более трети от общего числа) заставляет предположить серьезную накрутку. В ней можно убедиться, сделав специфичный региональный запрос. Если уж 'купить оружие в петербурге' ищут в Германии, Китае и США чаще, чем, собственно, в Петербурге ― то о естественном интересе не стоит и заикаться.

Теперь идем смотреть статистику по словам. Там тоже есть на что обратить внимание.

― Набор входящих слов должен соответствовать ожидаемому. Скажем, со словом 'скачать' чаще всего ищут: 'бесплатно', 'игры', 'музыку', 'фильм', 'mp3', 'музыку бесплатно', 'программы', 'игры бесплатно' ― и этот набор практически без изменений повторяется изо дня в день. Понятно, что если среди них вдруг затесалось что-то типа 'скачать глюкозавра' ― это повод заподозрить неладное.

― Сохраняется частотное распределение статистики по словам.
При росте одного запроса должна соответственно вырасти доля всех словосочетаний, содержащих эту фразу: и высокочастотных, и среднечастотных, и низкочастотных.

Вот пример нормальной статистики по словам, содержащим 'сделать аборт'. Такой она была в июле (да, представьте, у меня сохранен почти весь wordstat за июль, и мне есть с чем сравнить):
сделать аборт ― 1139
где сделать аборт ― 248
как сделать аборт ― 71
сколько стоит сделать аборт ― 24
сделала медикаментозный аборт ― 20
сделать мини аборт ― 20
я сделала аборт ― 20
сделать аборт спб ― 16
аборт сделать москва ― 13
сделать аборт цены ― 12
заставляет сделать аборт ― 12
где лучше сделать аборт ― 12
где сделать медикаментозный аборт ― 11
где можно сделать аборт ― 11

Не забываем, что статистика по 'сделать аборт' включает все содержащие эти слова словосочетания. Т.е. смело вычитайте из этого числа статистику 'где сделать аборт', 'как сделать аборт' и кучу низкочастотников ― по примерным прикидкам, сам запрос 'сделать аборт' делали раз 500―600, что согласуется с частотой остальных слов.

А теперь смотрим на декабрьскую статистику.
сделать аборт ― 53109
где сделать аборт ― 29400
как сделать аборт ― 92
сделала медикаментозный аборт ― 64
где можно сделать аборт ― 37
где сделать аборт красноярск ― 29
сколько стоит сделать аборт ― 29
сделать аборт москва ― 24
сделать мини аборт ― 16
сделать аборт спб ― 16
где сделать медикаментозный аборт ― 15
новосибирск сделать аборт ― 14
хочу сделать аборт ― 11
женщины сделавшие аборт ― 11

Как видим, низкочастотники остались на том же уровне (а если учесть общую динамику роста в 1,4 раза, даже чуть снизились), зато высокочастотный и среднечастотный запрос выросли в 50 и 120 раз соответственно. Это явный признак «неестественной статистики».

― Кроме того, даже при росте интереса низкочастотные запросы должны остаться низкочастотными: если интерес к фразе вида 'бабуин гамадрил' вдруг перевалил за 50 запросов в месяц ― повод поинтересоваться происхождением трафика.

Посмотрим, например, на словосочетания, включающие слова 'аборт'. Ничего не смущает? 'абортов пользователь' ― 1621, 'аборт убийство' ― 952, 'аборт сана' ― 908, 'аборт зарегистрирован' ― 894 ― это все не бывает просто так.

― Наконец, полезно сравнить с другими источниками.
В нашем случае это Гугль.Трендс и Рамблер.Адстат. Понятно, что аудитория Яндекса, Рамблера и Гугля различается, но вряд ли в десятки раз. И если остальные источники не обнаруживают хотя бы намека на ту же тенденцию ― повод задуматься.

Смотрим 'аборт' в Гугль.Трендс ― нет роста.

Практика
С теорией закончили, перейдем к практике. Та-ра-да! Время разгадок!

Берем пресловутый запрос 'сделать аборт', с которого все началось, и считаем признаки неестественного происхождения.
― резкий взлет,
― перекос в региональном распределении,
― рост количества двух запросов без соответствующего роста остальных,
― в Гугль.Трендс близко нет схожей динамики.

Итого: кто-то делает множество автоматических запросов в Яндекс с московских IP на тему абортов.

Теперь идем в "аборт" искать концы. У какого подзапроса смущала слишком большая статистика, прямо не связанная с темой 'сделать аборт'? 'аборт убийство'. Кликаем, чтобы посмотреть, из чего она складывается. 'пользователей', 'сообщение', 'гостей', 'зарегистрирован', 'создать топик', 'быстрый переход', 'последнее сообщение...' ― ничего не напоминает, нет?

Ну давайте тогда посмотрим, что же искали этими запросами: 'аборт убийство создать топик' ― что объединяет пингвина, поезд, сапог и пианино все эти сайты? Это все форумы. И кто-то делает множество автоматических запросов в Яндекс с московских IP, чтобы найти форумы, посвященные абортам. Надо полагать, в грязных SEO-шных целях ― чтобы их потом заспамить сообщениями или ссылками.

Идем в 'купить оружие' ― в статистике по словам из общего ряда как-то выбиваются слова forum, vbulletin, phpbb, showthread php, threads, topic index...

Не буду больше томить ― такая картина наблюдается сейчас везде.

Скажем, статистика слов по запросу 'купить' ― те же forum, vbulletin, phpbb, showthread php... Не забудьте обратить внимание на показатели региональной популярности в Германии, Китае, Бразилии и Японии. Такая картина по всем запросам, хоть, простите, 'купить анальную пробку'.

В смысле, совсем практически по всем запросам, хоть бабуин ― везде видим парсинг выдачи Яндекса на предмет форумов.

Выводы
Начиная примерно с октября, кто-то в огромных объемах автоматически парсит выдачу Яндекса, преимущественно с московских, немецких, китайских, японских и бразильских IP ― явно на предмет найти форумы. Скорее всего, чтобы эти форумы затем спамить сообщениями или ссылками.

Нельзя сделать вывод, что, помимо этой накрутки, есть еще какой-то рост. В самом Яндексе статистика безнадежно испорчена (вспоминаем правило тринадцатого удара), а ловить рыбку в мутной воде ― не лучшее занятие. Гугль.Трендс же никакого роста сверх обычного не показывает.

Wordstat ― это тонкий инструмент, который прекрасно помогает в определенных задачах, если подойти к нему с умом. Я хорошо разбираюсь в поиске, написал статью о профессиональном поиске в интернете (единственную в своем роде), выигрывал Кубок Яндекса по поиску, сам в свое время парсил выдачу Яндекса и Гугля на предмет пробития и дальнейшего заспамливания форумов ссылками :-), знаю о SEO не понаслышке, использую wordstat в своей повседневной работе, сделал в нем не одну сотню тысяч запросов и могу сходу назвать минимум три проблемы в «Базе Пастухова».

А вы ― не лезьте в wordstat, коли ничего там не понимаете.

Лирическое заключение
Вообще, все это помешательство на вордстате хорошо согласуется с правилами, описанными в книге Майерса «Социальная психология». Не устаю ее рекомендовать ― это одна из немногих книг, способная поставить мозги на место и в дальнейшем избежать подобных ошибок.

1. «Яркие, запоминающиеся, а потому и когнитивно доступные события влияют на наше восприятие социального мира. Чем значительнее событие, тем интенсивнее противоречащее фактам мышление» [1]
2. «Люди преисполнены желанием подтверждать свои убеждения, но не спешат искать доказательства, способные опровергнуть их». [2]
3. «После того как человек мысленно логически обоснует ложное представление, его на удивление трудно разрушить». [3]

Ну и то что большинство способно усваивать материал максимум до первой встреченной цифры.

Т.е. если человеку показали рост запросов у 'купить оружие', то большинство тут же подставит эмоционально близкое обоснование ― кризис. После этого подавляющее большинство будет делать только запросы, подтверждающие первоначальную теорию: 'купить пистолет', 'купить сигнализацию', 'уволили' или 'потерял работу' ― и любоваться на рост графика. В то время как нужно было делать еще и запросы, опровергающие эту теорию, типа: 'купить *****', 'купить' или 'и'.

И, наконец, хотя вы теперь знаете, что весь этот рост ― результат автоматических запросов в Яндекс в грязных SEO-шных целях, наверняка «осадочек остался»: вы «нутром чуете», что остается какой-то рост по запросам 'сделать аборт' и 'купить оружие', обусловленный все-таки не накруткой, а кризисом. Так вот, это психологическое. Вам кажется.

Теперь закройте наконец wordstat и идите работать или читать Майерса ― все лучше будет.


Полная версия статьи автора со ссылками и комментами: https://liveuser.livejournal.com/73187.html
okyl вне форума
Перейти в тему этого сообщения: Ликбез рекламодателю по борьбе с накрутчиками (Ребятам о вордстате)