Как работают поисковые машины Интернета

Главным элементом современного Интернета являются поисковые системы или поисковые машины, Google, Rambler, Yandex и другие. В Глобальной Сети находится множество разнообразной информации, собственно, поисковики и помогают пользователям достаточно быстро находить нужную им информацию.

Различные учебники и научные книги имеют алфавитно-предметный указатель или индекс. В данном указателе перечисляются наиболее значимые термины (ключевые слова) данной книги и номера тех страниц, на которых их можно встретить.

Работа поисковых машин основана на аналогичном принципе. Поэтому, когда пользователями вводятся поисковые запросы, они обращаются к списку существующих ключевых слов в Интернете или индексу – предметному указателю Интернета, с указанием всех тех страниц (ресурсов), где они встречаются.

Поисковой машиной является программа, составляющая и хранящая индекс - предметный указатель Интернета, а также находящая в нем введенные ключевые слова - запросы.

Этапы по составлению индекса и последующему поиску по нему выглядят следующим образом:

Сбор интернет-адресов веб-страниц.

В поисковые машины загружаются первоначальные списки адресов веб-сайтов. Затем поисковые машины, а точнее, их составная часть – поисковые роботы, собирают все гипертекстовые ссылки, ведущие на другие страницы, и добавляют все, найденные в ссылках интернет-адреса, к своим первоначальным спискам адресов. Следовательно, их первоначальные списки быстро увеличиваются.

Страница интернет-ресурса, на которую не ведет ни одна из ссылок, никогда не попадет в индекс поисковой машины, поэтому каждый новый сайт необходимо в обязательном порядке зарегистрировать в поисковиках, для того, чтобы он смог попасть в индекс.

Выкачивание страниц

Поисковые роботы или пауки обходят веб-страницы, скачивают с них текстовые материалы и хранят их на жестких дисках своих компьютеров, а потом передают их на индексирование индексным роботам.

Составление индекса

Первоначально, все тексты индексируемых страниц очищаются от различных нетекстовых составляющих (графических изображений, разметки HTML и других). Затем, выбранные из текста слова, приводят к своим основам в именительном падеже. Составленные основы слов выстраиваются в алфавитном порядке с указанием номеров страниц, где они были взяты, и номеров вхождения, где стояли основы на данных страницах.

Поиск

Когда пользователем вводится искомое слово в поисковую строку, поисковик обращается к индексу. Он находит здесь все номера веб-страниц, которые имеют отношение к заданному слову, и представляет пользователю весь поисковый результат (список найденных страниц).

Качество поисковых машин

Синоним качества поиска - это его релевантность. По отношению к поисковым машинам, слово релевантный (относящийся к делу), считается, чуть ли не основополагающим термином. Релевантность поисковых результатов означает, что в них содержатся только страницы, относящиеся к смыслу поисковых запросов. Качество поиска или релевантность является довольно сложной вещью.

Еще один достаточно важный критерий качества работы поисковой системы – это точность.

Точность поиска является мерой качества выданных поисковых результатов. Она высчитывается как доля релевантных страниц, от общего количества страниц, выданных по результатам поиска. Тем не менее, важной считается не только точность, но еще и ранжирование поисковых результатов.

Ранжирование – это расположение поисковых результатов по их релевантности.

Невозможно точно определить какая из поисковых машин лучше. Для пользователей, лучшим является поисковик, который выдает наиболее точные и релевантные результаты. Для владельцев сайтов хороша, та поисковая машина, в которой достаточно хорошо видны их сайты и которая сможет привести на их интернет-ресурсы максимальное число целевых посетителей.

Обратная связь