Новый алгоритм Google – KBT. Алгоритмы Google: история развития Алгоритмы гугла история

«Качество веб-источников традиционно оценивается с помощью внешних сигналов, таких, как гиперссылки. Мы предлагаем новый подход, в основе которого лежат внутренние сигналы, а именно корректность фактической информации, полученной из других источников. Источник, который будет иметь минимум ложных фактов, будет считаться надежным». Именно с этих слов начинается документ , опубликованный в конце февраля командой ученых-исследователей Google.

Значит ли это, что вслед за Яндексом Google намерен уменьшить влияние ссылочного фактора? Давайте разбираться с самого начала.

8 августа 2012 года Google официально запустил алгоритм семантического поиска Knowledge Graph («Граф знаний») по всему миру.

Knowledge Graph - это огромная база знаний, используемая Google для улучшения результатов поиска. Именно с этой даты концепция поиска Google сместилась в сторону семантики. Теперь вместо обработки ключевых слов алгоритмы Google пытаются понять смысл запроса. Это первый шаг к семантическому поиску, в том числе, к развитию голосового поиска Гугл.

Спустя два года Google начинает работать над созданием Knowledge Vault («Хранилища знаний») - новой, еще более обширной базы знаний, которая в перспективе заменит Knowledge Graph. Если Knowledge Graph собирает знания только из проверенных источников, вроде Википедии, то Knowledge Vault автоматически собирает и объединяет информацию со всего Интернета в единую базу знаний о мире, людях, связях и объектах.

При чем тут новый алгоритм?

В опубликованном документе сообщается, что сейчас Google никак не определяет, насколько информация на сайтах является достоверной. И если один сайт в Интернете пустит утку и, допустим, слух этот сразу подхватят другие ресурсы, ссылаясь на первоисточник, то сайт-первоисточник, скорее всего, займет достойное место в выдаче. Тем самым Google как бы косвенно способствует распространению ложной информации.

Knowledge-Based Trust - знания, основанные на доверии. Новый алгоритм будет оценивать корректность представленной на сайте информации, сравнивать ее с данными, уже имеющимися в базах знаний Google Knowledge Vault и Knowledge Graph. При этом алгоритм будет понижать в выдаче сайты, если ложных или неподтвержденных фактов будет достаточно много.

KBT vs PageRank

В документе разработчики Google представили несколько интересных экспериментов с KBT. В том числе эксперимент «КВТ против PageRank».

Разработчики сравнили KBT с традиционным PageRank. На рисунке изображены показатели КВТ и PageRank для 2000 случайно выбранных страниц. Значения обоих показателей для удобства сравнения были приведены к шкале от 0 до 1. Как оказалось, в основном значения КВТ и PageRank не коррелируют.

Разработчики более детально исследовали 2 случая, где КВТ значительно отличается от PageRank, чтобы понять, какой из алгоритмов надежнее и почему получились такие расхождения.

Исследование №1

Первый случай - низкий показатель PageRank, но высокий КВТ (нижний правый угол): чтобы понять, что именно является источником высокого КВТ, инженеры Google взяли за образец около 100 сайтов со значением КВТ около 0.9. Для каждого сайта инженеры вычленили 3 подходящих утверждения и произвольно выбрали из них 10 триплетов.

Что такое триплеты (или тройки базы знаний), лучше объяснить сразу на примере. Каждый факт состоит из субъекта, объекта и характеристики объекта. Например, Барак Обама - субъект, его гражданство - характеристика объекта, США - объект. Отсюда получаем факт: Барак Обама является гражданином США. База знаний Knowledge Vault собирает информацию о фактах с помощью аналогичных триплетов.

После этого вручную оценили каждый сайт. Из 100 сайтов 85 были признаны надежными. Однако только 20 сайтов из 85 имеют PageRank выше 0.5. Этот эксперимент доказал, что КВТ может распознать источники с надежными данными, даже если у них низкий PR.

Исследование № 2

Высокий PageRank, но низкий КВТ (верхний левый угол): инженеры Google рассмотрели 15 самых популярных сайтов, публикующих сплетни о знаменитостях. Среди них 14 имели высокий PageRank, однако для всех показатель КВТ составил меньше 50%; другими словами, они являются менее надежными, чем половина всех сайтов в Сети. Другие сайты, у которых оказался низкий КВТ - это форумы. Например, answers.yahoo.com, рассказывает о том, что Кэтрин Зета-Джонс родилась в Новой Зеландии, хотя, согласно Википедии, она родилась в Уэльсе.

Оба эксперимента показали, что KBT является достаточно надежным алгоритмом, отличным от всех традиционных (вроде PageRank) и способным выявлять сайты, публикующие непроверенные факты, а также сайты, копирующие подобный контент.

Пока сложно сказать, решит ли Google отменить ссылочное, сделав ставку на KBT, или нет. Скорее всего, если станет использвать KBT, то будут учитываться оба фактора.

Когда ждать алгоритм KBT?

Когда точно запустят алгоритм (и запустят ли вообще), пока неизвестно.

Буквально на днях Джону Мюллеру (специалисту отдела по работе с вебмастерами Google) на очередной встрече с вебмастерами в Google+ задали вопрос о том, применяется ли данный алгоритм в ранжировании (см. прямой эфир от 10 марта , 49-я минута), на что он ответил, что в штате работают много научных сотрудников, которые периодически проводят различные исследования, но это не значит, что эти разработки будут использоваться в поиске, пока это точно не более чем очередное исследование.

Инженеры Google заявляют: «Исследования показали, что наш метод может вычислить истинную достоверность источников. Мы применили его к базе данных на 2,8 миллиарда фактов, извлеченных из Интернета, и тем самым оценили достоверность 119 миллионов веб-страниц. Выборочные оценки результатов людьми подтвердили эффективность метода.
KBT обеспечивает полезный сигнал о надежности ресурса и не коррелирует с традиционными сигналами, например, с PageRank
».

Запуск KBT (если он все-таки произойдет) может стать новой эпохой во всей истории Google и, конечно, одним из важных факторов ранжирования сайтов. Но уже сейчас понятно, что алгоритм может быть применён далеко не ко всем сайтам - его действие будет распространяться лишь на ресурсы, публикующие фактический материал.

KBT - еще один сигнал, говорящий о том, что в скором времени только сайты интересные и полезные для людей будут занимать достойные места в выдаче поисковых систем. И это, безусловно, хорошо для всех.

В марте в большинстве англоязычных блогов пишут про Google Фред , про то что много сайтов просело и поисковая система выкатила новый алгоритм.

По мнению многих, алгоритм влияет на микро сайты, которые сливают свой трафик на партнерские программы, а так же на проекты, у которых много рекламы.

В сегодняшнем выпуске мы рассмотрим:

  • что это за алгоритм Google Fred
  • почему многие про него написали
  • на что он может повлиять
  • какие типы сайтов вылетели
  • что мы думаем по этому поводу
  • причины и следствия

Переходим к просмотру видео:

Фото с доски:

Важно : Если у вас есть вопросы, то смело задавайте их в комментариях. С удовольствием на них отвечу!

Что же такое Google Fred на самом деле?

Трясти выдачу Google начало примерно 8-9 марта. Тогда большинство и обратило на это внимание.

Особенно, когда сайты полностью вылетели, многие рванулись на форумы и нишевые сайты узнать в чем же дело.

Вот что показывали ряд сервисов отслеживания изменений алгоритмов:

Как видно, изменения таки были. Так же многие их ощутили по позициям и проседанию трафика.

Почему название FRED?

На самом деле, название придуманное представителем Google, вот как оно появилось :

Так и подтянули это название и про него начали писать в отраслевых блогах и СМИ.

За что наказывает

Говорят что за:

  • наличие большого количества рекламы
  • аффилиатные сайты заточенные только под слив трафика
  • сайты с плохим контентом или генеренным

Сайты, которые в целом несут мало пользы для юзера.

Но, есть одно но:

  • проседали и сайты, которые полностью белые
  • не заточены под партнерские программы

Так что это такое Фред?

По сути, это «неофициальное» название апдейта поисковой системы Google. Никак не алгоритм.

Просто Google докрутили какие-то нюансы в существующих алгоритмах, а оптимизаторы, вебмастера и аналитики увидели почувствовали его. Подхватили название и разнесли информацию везде, где только можно.

Сам Google ничего официально не заявлял и про Fred негде почитать в блоге для вебмастеров от Google.

Что мы думаем о апдейте резюме

  • апдейт был – это просто факт
  • под него попадали сайты, на которые даже не строили ссылки
  • так же сайты, которые не подходят под описание сайта под слив трафика на партнерки
  • каких то уведомлений в Google Search Console нет
  • по некоторым проектам позиции пляшут постоянно
  • по некоторым выпали, потом вернулись обратно

Так что это такое?

Мы не уверены вообще, что это новый алгоритм. Если взять за внимание что:

  • Google обновляет алгоритмы более 600 раз в год
  • У него есть Penguin – отвечает за ссылки, Panda – за контент, Human bird – новое ядро алгоритма

То понятное дело, что они тестируют все постоянно. Как в режиме реального времени, так и нет.

Если ваш сайт пострадал от апдейта Фред – на что обратить внимание?

  1. Качество ссылочного профиля
  2. Качество контента
  3. Проверить Google Search console
  4. Проверить технически все на сайте

По факту, причины могут быть абсолютно любые. Так же они зависят еще от ниш.

Как всем известно, во многих нишах происходит заруба. Как следствие, Google обращает на них много внимания, и постоянно закручивает гайки.

Резюме

  • Fred – не алгоритм
  • А просто апдейт Гугла
  • Который затронул ряд сайтов
  • Говорят только за контент и рекламу, но думаю что нет (за ссылки тоже)
  • Апдейт новый, но задачи он решает все те-же
  • Нужно лучше планировать ссылки, контент, связи между сайтами
  • Тогда будет меньше вероятность получить санкции

Как и говорил в видео, мы не увидели существенных проседаний в то время, да и сейчас. Были примеры, но на общем фоне их не много. Большинство сайтов только прибавило по видимости и трафику.

Вот такие дела.

PS : основной посыла этого апдейта, направлен на то, чтобы все принимали правила Google для вебмастеров .

PPS : хотя , что Google подтвердил этот алгоритм, вот ответ в Twitter:

всего

Вступление

Алгоритмы Google , основа работы поисковой системы Google. Созданный Ларри Пейджем и Сергеем Брином, Google сегодня способен найти документы на двух сотнях языках и произвести обработку данных базовых форматов (Microsoft Word, PDF, Excel и т.д.). В этой статье вспомним главные этапы развития алгоритмов Google, созданных для ранжирования веб-страниц в поисковой выдаче Google.

Алгоритмы Google: история развития

1998 год . В этот год был основан поисковик Google. В то же время был создан (PR), алгоритм работы которого основывался на передаче ссылочной массы и имел два основных параметра.

  1. Чем больше количество ссылок, ведущих на ту или иную страницу, тем выше уровень Page Rank и место, занимаемое в поисковой выдаче.
  2. Чем выше уровень Page Rank ссылающихся веб-страниц, тем больше масса, передаваемая ссылками.

Официальным создателем PR является Лари Пейдж, а владельцем патента на данное изобретение – университет Стэнфорда.

Интересный факт – многие считают, что Page Rank переводится как «ранг страницы». На самом деле это словосочетание переводится как «ранг Пейджа», создатель изобретения дал ему свое имя. В дальнейшем многие поисковики переняли идею Page Rank в качестве основы, разработав собственные аналоги инструмента.

Начало века

2000 год . Компания Google представляет широкой общественности новую разработкуалгоритм под названием Hilltop , который позволяет наиболее точно рассчитать уровень PR. Данный алгоритм читает географию и степень новизны того или иного документа. После этого Google начинает оповещать веб-мастеров о том, чтобы они не оставляли ссылки на подозрительных веб-сайтах и «линко-помойках».

2001 год . В этот год компания Google регистрирует патент на алгоритм Hilltop. На этом же этапе поисковая система делит результаты поиска для некоммерческих и коммерческих запросов.

2003 год . 15.11.13 запускается новейший алгоритм Florida, который убирает из выдачи либо понижает место страниц, содержание которых перенасыщено ключевыми фразами и словами. В этот день специалисты в области SEO поняли, что новый алгоритм поисковика понижает рейтинг страниц по следующим причинам:

  • не уникальный либо низко уникальный контент;
  • высокое содержание ключевиков в заголовках и текстах;
  • ссылки неестественного вида (покупные).

2005 год . Специалисты Google впервые пробуют персонализировать поисковую выдачу, задав за основу предыдущие запросы того или иного пользователя.

2006 год . Компания запускает усовершенствованный алгоритм, базирующийся на алгоритме под названием Orion – детище студента из Израиля. Поисковая система теперь может находить совпадающие по тематике запроса веб-страницы, не содержащие ключевиков.

С этого момента Google начинает «уточнять» запросы пользователя, предлагая варианты, которые чаще всего ищут с данным словом. К примеру, пользователь набирает в поисковой строке слово «круг». Система предлагает ему такие варианты запроса, как «круг песни», «круг для купания новорожденных» и т.д.

2007 год . Этот год ознаменован запуском нового алгоритма Austin . Новинка способна учитывать уровень трастовости того или иного веб-ресурса и понижать в поисковой выдаче ресурсы с меньшим показателем трастовости. Таким образом, веб-сайты, которые не успели набрать траст.

Новое в 2009 году

2009 год . Разработчики Google внедряют в работу поисковой системы новый алгоритм Caffeine . Прошлые алгоритмы Google стали не соответствовать, возросшим производственным мощностям. Благодаря чему поисковик начинает намного чаще производить индексирование сайтов.

Во много раз ускоряется формирование страницы с результатами поисковой выдачи. Caffeine не сильно повлиял на формулу рассчёта релевантности, тем не менее стали заметны следующие изменения:

Постоянная индексация всего пространства всемирной паутины позволила поисковой выдаче Google стать гораздо динамичнее и меняться в течение дня.

Второе десятилетие нашего века

2011 год . Специалисты пополняют алгоритмы Google своим «мусорщиком». Это запуск алгоритма под названием Panda – первый серьезный чистильщик выдачи. Новый алгоритм «чистит» поисковую выдачу от «плохих» сайтов:

  • сателлитов,
  • дорвеев,
  • сайтов, содержание которых представляет собой лишь рекламу и ссылки,
  • сайтов с низкой уникальностью контента.

Создатели усовершенствованного алгоритма Мэтт Катс и Амит Сингал отмечают, что их новое детище учитывает следующие моменты:

  • Процентный показатель уникальности содержания определенной страницы и на ресурсе в целом;
  • Уровень шаблонности содержания, то есть схожесть текстов, написанных под различные ключевики;
  • Наличие стилистических, грамматических и орфографических ошибок;
  • Релевантность представленной на ресурсе рекламы к тематике размещенных текстов
  • Соответствие содержания тегов и метатегов веб-страницы к ее контенту;
  • Степень насыщенности размещенных текстов ключевиками;
  • Уровень качества исходящих и входящих ссылок;
  • Действия интернет-пользователя (длительность посещения сайта, число просмотренных веб-страниц, количество отказов и возвратов на ресурс).

Сегодня можно с уверенность отметить, что практически все современные поисковые системы учитывают данные факторы, в особенности – поведенческие. Чем интереснее контент сайта для интернет-пользователя, тем больше он проведет времени на данном ресурсе. Тем выше данный веб-сайт будет ранжироваться на странице поисковой выдачи.

Калибри

2013 год. В октябре алгоритмы Google пополнились новейшим алгоритмом «Колибри» — Hummingbird . Новшество данного алгоритма заключается в том, что он способен понимать даже скрытый смысл запросов. К примеру, если вы введете «купить что-либо около дома» Hummingbird по мет, что имеются в виду оффлайн-магазины.

А из интернет-магазинов он выберет лишь те, на сайтах которых максимально подробно описана информация об условиях доставки и их преимуществах. Помимо этого, алгоритм Hummingbird предпочитает длинные, подробные запросы. Но при этом по тем запросам, по которым Google не сможет «пофантазировать», выдача не изменилась.

И еще один важный момент – неуникальное, низкоуникальное и сгенерированное содержание теперь не работает.

В завершение всего стоит отметить, что российский Google – один из наиболее удобных вариантов работы поисковой системы.

В России Google не использует большую часть своих «карательных» санкций. Благодаря этому продвижение сайтов для данной системы в России намного проще, чем для других поисковиков.

Пингвин и Панда, что дальше

4.10. 2013 вышел алгоритм Пингвин 2.1

Как и ранее поисковик Google обращает внимание на подозрительные сайты и анкор-листы. Данное обновление алгоритма отразилось на ранние попадавшие под санкции алгоритма сайты. Затронуло 1% запросов.

19.05. 2014 год вышло обновление Панда 4.0

Самое серьёзное обновление данного поискового алгоритма. Затронуло 7.5% поисковых запросов.

24.08. 2014 год, алгоритм Голубь

Алгоритм обратил внимание на геозависимые запросы. Теперь, при получении геозависимого запроса поисковик Google дает наиболее информативные, локальные результаты поиска для пользователя.

Задумывались ли вы, как работает технология Google? Конечно, в процессе организации поисковой выдачи (SERP) задействован сложный алгоритм, основанный на множестве переменных. Но все же — сможете в простых словах объяснить принцип работы самого популярного в мире поисковика?

Чтобы разобраться в дебрях алгоритма самой сложной поисковой машины, взгляните на эту крайне полезную инфографику от quicksprout.

Вездесущие поисковые «пауки» Google заползают на некоторые веб-страницы, а затем идут дальше по ссылкам с этих страниц. Такой подход сканирования сети позволяют Google индексировать более чем 100 миллионов гигабайт информации.

Для того чтобы пользователи получали лучшие результаты выдачи, Google постоянно создает и совершенствует программы. Вот краткий список основных направлений, по которым ведется постоянная работа:

  • проверка орфографии;
  • автозаполнение;
  • поиск по синонимам;
  • общее понимание запросов;
  • живой поиск Google;
  • поисковые паттерны.

  • сколько раз на странице встречается ключевое выражение?
  • вхождение ключевого слова в Title или URL?
  • содержит ли страница синонимы ключевого выражения?
  • каков Google PageRank страницы?

Все это происходит за ⅛ секунды.

Так называемая Сеть знаний (knowledge graph) — технология, которая выдает результаты, основанные на глобальной базе данных по реальным людям, местам и связям между ними. Например: кроме сухих фактов о биографии Льва Толстого вы получите максимум интересного контента (текст/фото/видео), связанного с этой фигурой.

Удобства поисковой выдаче добавляют и сниппеты — небольшие фрагменты информации, позволяющие быстро и без необходимости перехода по ссылке понять, соответствует ли страница вашему запросу.

Прочие инструменты Google, облегчающие поиск:

Здесь комментарии излишни. Просто нажмите на иконку микрофона, и расскажите поисковой системе, что хотите найти. Но будьте аккуратны — она может ответить. :)

2. Изображения

Показывает основанные на результатах выдачи эскизы изображений.

Поиск Google позволяет задавать конкретные вопросы, и получать быстрый ответ на них.

А еще Google владеет вторым по популярности в мире поисковиком, который вы все прекрасно знаете:

Вывод

Что же сделало Google столь успешной поисковой системой? Несмотря на множество сложнейших процессов, происходящих незаметно для пользователя, Google — простой и удобный поисковик с точки зрения юзабилити. Какой бы вы ни задали вопрос, он предоставит релевантную поисковую выдачу за 1/8 секунды.