Мониторикс различает множество различных веб-страниц, к каждой из которых применяет определенные правила.

На любой веб-странице есть некая информация, которая нужна пользователю, остальное же робот должен отбрасывать как информационный шум:

1) текст, передающий основную информацию - полезный слой для поиска информации

2) нетекстовая информация: картинки, видео-, аудиофайлы - полезная для агента информация

3) интерактивная информация: формы, кнопки и т.д., которые позволяют динамически управлять сайтом - бесполезная информация

4) другое: таблицы стилей, метаданные и т.д. - бесполезная информация

Полезная страница - конечная точка на веб-сайте, в которую должен зайти робот, чтобы получить наиболее полную информацию:

1) текст новости

http://сайт.ком/business/realestate/744349

2) текст поста

http://блог.ком/node/111.html

3) обсуждение на форуме

http://форум.ком/showthread.php?t=308351&page=4

Бесполезная страница мешает получению полной информации и, как правило, является промежуточной точкой, куда попадает пользователь при просмотре веб-сайта:

1) Стартовые страницы

http://сайт.ком

2) Внутренние страницы разделов

http://сайт.ком/news/

3) Страницы тегов:

http://сайт.ком/tag/web/

Бесполезные страницы должны подавляться различными фильтрами и помечаться как информационный шум.

В результате в базе должны быть сохранены только сообщения, полученныя из конечных точек веб-сайта.

2 Responses to “Классификация веб-страниц в Мониториксе”

  1. rusmotoclub.ru Says:

    rusmotoclub.ru…

    Очень сильно хотелось бы поделиться опытом с кем-то по обозначенному вопросу. Кто < a href=’http://z…

  2. Карп Says:

    Помощник менеджера…

    Помощник менеджера

Leave a Reply