Как устроены поисковые системы
Очень важно объяснить, как работают поисковые системы. Ведь иногда Интернет и вовсе ассоциируется с одной из них.
Поисковая система – очень сложная система, которая состоит из множества (миллионов серверов). Вся информация на них распределяется по всему миру в так-называемых дата-центрах и надежно защищается.
Примечательный пример с Яндексом. Например, в 1997 году у Яндекса был только один сервер. А уже через три года у компании было 50 серверов. Под сервера выделяются целые комнаты с постоянно поддерживаемыми климатическими параметрами, а сами серверы для компактности и порядка располагают на надежных полках, в основе которых уголок стальной. Сейчас у компании Яндекс в наличии четыре дата-центра (тысячи серверов, которые составляют единую сеть, работающую с множеством запросов).
Но главное, поисковики работают на логическом уровне. Если, например, пользователь пытается задать один запрос, то он попадает на «балансировщик нагрузок» (механизм перенаправление в менее загруженную часть системы). После этого запрос направляется в метапоиск. Этот уровень оперирует всеми возможными данными, выявляя тип запроса. Здесь запрос проверяется орфографическую корректность. Система может также устанавливает регион поступления запроса.
Следующий шаг – проверка наличия похожих запросов прежде, в ближайшее время. Причина этого в постоянности некоторых запросов, некоторые из которых хранятся в кэше (необходимость эффективности работы, чтобы не формировать похожие ответы заново). Очень часто встречаются похожие запросы, связанные с наличием популярных поисков той или иной информации. Например какая-то новость, очень часто пользуется большим спросом. Также существуют некоторые темы, всегда популярные в сети Интернет.
Если же в кэше не нашлось ранее сохраненного ответа на запрос, то поисковик начинает подготавливать новые варианты ответа. После этого запрос продвигается на сервера «базового поиска». Базовый поиск – это среда, где находится индекс поисковика. Он распределяется на части, размещается на разных серверах. Это связано с тем, что искать по частях быстрее и эффективнее.
Очень важно, что все сервера имеют зеркала – собственные копии. Цель копирования – защита данных и информации от потерь. Также важным фактором есть распределение физических нагрузок на сервера. Ведь если к серверу обращаются часто, поскольку информация стала очень нужной, то он может перегружаться. Проблема может быть решена благодаря использованию копий серверов.
После осуществления поиска сервера базового поиска передают на уровень метапоска определенные результаты, которые отображают ответ на запрос пользователя.
В конце – используется алгоритм «Матрикснет» - который ранжирует и определяет место каждой ссылки в поисковой выдаче. Поисковик выдает то, что видит пользователь на экране.