На сегодняшний день Интернет представляет собой сложный и не имеющий логики организм, в котором, однако, находит себе место любая инициатива человека, даже не имеющего (и никогда не имевшего) собственного сайта. Комментарии - вот объективная оценка любого события, темы или только что вышедшего продукта, это то частное мнение, от которого зависит субъба любого политика или организации.

Крупнейшие компании тратят немыслимые бюджеты на маркетинговые исследования и не замечают, что все, что им нужно - здесь же, лежит прямо под ногами, просто его тяжело добыть и обработать. Дело в том, что на подавляющем большинстве интернет-сайтов комментарии сливаются с основным контентом и расположены на тех же страницах, поэтому выделить их в собственную структурную единицу очень сложно (хотя и возможно). (more…)

В последнее время порталы начали здорово мешать быстрому получению информации. Мало того, что в основном информация не оригинальная, так еще и владельцы ресурсов, пытаясь нарастить как можно большее количество страниц (что полезно для поисковиков), генерируют кучу мусора, сквозь которую непросто пробиться роботу. Не завидую Яндексу и Гуглу, которые пытаются скачать все, и тонут в этом потоке. А убрать и подавить все лишнее - от объема каждого портала останется несколько процентов, не более.

Порталы создают следующие проблемы, с которыми как-то надо бороться:
1) неоригинальный контент в секции “Новости” - тем не менее, их приходится качать, если портал имеет какую-то аудиторию, которая все это может прочитать. Особенно важно отследить новости с негативной тональностью - это может повлиять на мнение пользователей. (more…)

После официального старта проекта появилось множество вопросов о технологиях и происхождении информации, которую отображает Мониторикс. Хотелось бы сразу внести ясность.

1) Откуда у вас такие технологии, которые есть только у Яндекса или Гугла, и где вы их украли?

Мы вложили в Мониторикс практически 10-летний опыт работы в области проектирования информационных систем. То, что Вы сейчас наблюдаете, создавалось годами и не появилось на ровном месте. (more…)

Интеллектуальный агент “Мониторикс” состоит из нескольких частей и объединяет в себе сразу несколько технологий поиска. Основное его назначение - быстро найти нужную информацию, затратив как можно меньше времени. Для оптимальной работы нужно поставить Мониториксу задачу, то есть описать интересующий объект поисковыми запросами. При этом эффект от его работы в большей степени зависит от того, насколько точно поставлена задача.

Итак, первая часть системы (назовем ее регулярным спайдером) работает точно так же, как и у других поисковых машин класса Яндекса и Гугла - Мониторикс ходит по ссылкам в Интернете и собирает информацию только с сайтов, известных роботу (пользователи сами их добавили в персональном кабинете, во вкладке Сайты). (more…)

Не все страницы в Интернете одинаково полезны. Более того, можно с уверенностью сказать, что подавляющее большинство страниц - это паразиты, не имеющие никакой практической ценности, для пользователя они не просто вредны - это лабиринты, в которых легко заблудиться и так и не добраться до полезной информации.

К подобным ловушкам можно отнести разнообразные агрегаторы контента, сервисы для сравнения цен, каталоги, да и просто навигационные части сайтов, которые в большинстве своем бесполезны и являются лишь посредником-прокладкой между потребителем и информацией. (more…)

На протяжении многих лет работы с информационными потоками мы выделили несколько основных проблем, которые не позволяют обрабатывать информацию максимально быстро и эффективно. Мы работаем над каждым из приведенных ниже пунктов:

1) поверхностность информации зачастую приводит к неправильному восприятию информационного поля.
Например, в случае гипотетического военного конфликта официальные СМИ будут отражать официальную точку зрения, которую может контролировать правительство, в блогах же позиция людей может быть совершенно противоположной. Для получения объективной информационной картины нужно рассматривать все информационные потоки без исключения. (more…)

Классический подход к обработке информации, который исповедуют современные поисковые системы, не предполагает детального разделения информационного потока, что создает определенные неудобства, если пользователя интересует конкрентный тип данных, например, только форумы или только пресса, которая есть в онлайне.

Особенно неудобно искать быстроустаревающие сообщения (к примеру, объявления или вакансии), поэтому даже поисковые гиганты вроде Google в таких ситуациях часто оказываются совершенно бесполезными. (more…)

Мониторикс может работать в разных режимах, в зависимости от выполняемых заданий и приоритетов пользователя. Он способен самостоятельно обучаться и адаптироваться практически под любой веб-сайт, что дает возможность применять его таланты для решения множества задач. Интеллектуальный агент способен распознавать информацию в “сыром” виде, для чего ему не требуется даже отдельный RSS-канал, содержащий чистый контент - извлечение текста производится автоматически прямо из кода HTML-страниц после небольшого обучения. Здесь Мониторикс моделирует поведение человека, который впервые попадает на незнакомый сайт и инстинктивно отбрасывает элементы навигации и рекламные блоки, и читает только текст публикации. Оригинальная технология позволяет не только извлекать нужную информацию, но и рубрицировать страницы по заданным типам. (more…)

Прежде всего, хотелось бы представить нашу разработку, которая во многих отношениях является совершенно уникальной, объединяя в себе как функционал поисковых систем, так и персонализированных социальных сетей, новостных агрегаторов, метапоисковых технологий и бог знает еще чего еще. Объединив все перечисленные элементы, мы получили мощнейшую систему сбора и обработки информации, которая способна совершенно автономно снабжать информацией любого человека - Интеллектуальный Агент, который мы назвали Мониториксом (так сложилось исторически). (more…)

17 февраля 2009 г. - это день, когда мы открыли свой проект для общественности, и сейчас его могут тестировать все желающие. Мы решили не отставать от духа времени, и сразу же открыли блог, в котором будем публиковать не только анонсы новых фишек и примочек, но и рассматривать проблемы, которые возникают при работе с большими объемами информации, благо мы накопили немалый опыт для их решения.

Итак, поехали…