Мониторикс различает множество различных веб-страниц, к каждой из которых применяет определенные правила.
На любой веб-странице есть некая информация, которая нужна пользователю, остальное же робот должен отбрасывать как информационный шум:
1) текст, передающий основную информацию - полезный слой для поиска информации
2) нетекстовая информация: картинки, видео-, аудиофайлы - полезная для агента информация
3) интерактивная информация: формы, кнопки и т.д., которые позволяют динамически управлять сайтом - бесполезная информация
4) другое: таблицы стилей, метаданные и т.д. - бесполезная информация
Полезная страница - конечная точка на веб-сайте, в которую должен зайти робот, чтобы получить наиболее полную информацию:
1) текст новости
http://сайт.ком/business/realestate/744349
2) текст поста
http://блог.ком/node/111.html
3) обсуждение на форуме
http://форум.ком/showthread.php?t=308351&page=4
Бесполезная страница мешает получению полной информации и, как правило, является промежуточной точкой, куда попадает пользователь при просмотре веб-сайта:
1) Стартовые страницы
http://сайт.ком
2) Внутренние страницы разделов
http://сайт.ком/news/
3) Страницы тегов:
http://сайт.ком/tag/web/
Бесполезные страницы должны подавляться различными фильтрами и помечаться как информационный шум.
В результате в базе должны быть сохранены только сообщения, полученныя из конечных точек веб-сайта.




April 2nd, 2010 at 9:14 pm
rusmotoclub.ru…
Очень сильно хотелось бы поделиться опытом с кем-то по обозначенному вопросу. Кто < a href=’http://z…
May 4th, 2010 at 3:51 pm
Помощник менеджера…
Помощник менеджера …