• 8 (495) 182-07-77
  • РАБОТАЕМ БЕЗ ВЫХОДНЫХ
  • Принимаем звонки с 9:00 до 21:00
  • Заказы на сайте – КРУГЛОСУТОЧНО
  • Доставляем ежедневно с 9:00 до 22:00
Корзина
Корзина

8 (495) 182-07-77

Архитектор веб-браузера: Индексирование веб-страниц

После того, как веб-страницы загружены на сайт браузера, они обрабатываются в формате, который подходит для эффективного и действенного использования в поисковых системах. Содержимое страницы может быть представлено написанными на ней словами. Слова, не относящиеся к содержанию, такие как «есть» или «есть ли», обычно не используются для представления содержания. Часто слова преобразуются в их корень с помощью соответствующей программы, чтобы было легче угадывать различные варианты одного и того же слова. Например, «учетная запись» является корнем слов «подсчет» и «вычисление». После удаления со страницы слов без содержания и процесса извлечения корня оставшиеся слова (так называемые термины индекса) используются для представления страницы в поиске. Предложения также можно распознать как отдельные термины индекса. После этогоопределяет значение каждого термина при представлении содержимого страницы при выдаче результатов поиска в поисковой системе.

Значение термина p на страницах в пределах заданного набора S страниц можно определить несколькими способами. Если рассматривать каждую страницу как текстовый документ, то значимость p обычно рассчитывается на основе двух статистических данных.. Первый относится к частоте появления термина (fp) в s, то есть, сколько раз термин p появляется на странице s, а второй относится к частоте появления документа (fd) в наборе S, то есть количеству страниц в наборе страниц S, в которых встречается термин p. Интуитивно говоря, чем больше страниц содержит термин p, тем важнее он как представитель содержимого страницы. Однако чем больше разных терминов встречается в термине p, тем менее полезно различать разные страницы друг от друга. В результате значение термина должно быть монолитно убывающей функцией его частоты в различных документах. В настоящее время большинство веб-страниц отформатированы на языке разметки гипертекста ( HTML).), который имеет набор тегов, таких как заголовок и заголовок. Эта информация может использоваться, чтобы влиять на значение терминов, обозначающих веб-страницы. Например, термины, содержащиеся в заголовке веб-страницы, выделенные жирным шрифтом или курсивом, с большой вероятностью будут более релевантными для представления веб-страницы, чем те, которые появляются в ее основном содержимом и не имеют специального форматирования. Интим досуг в Белгороде: intim31.com Проститутки ждут звонка

Избранное

dda8486d173496f220465b80623f7fa1