Определение тональности публикаций - задача сложная и неоднозначная. Зачастую точно определить тональность не может даже вручную, и несколько экспертов расходятся во мнениях, какую тональную окраску имеет объект в определенном тексте.

Мы используем следующие подходы для sentiment analysis:

  • Тонально окрашенные ключевые слова и фразы бывают контестно-зависимыми и контекстно-независимыми. Первые определяются по карте рисков.
  • Контекстно-независимые слова и фразы имеют конечное число состояний и позволяют задавать исходные данные для машинного обучения
  • Для определения тональности важен принцип “И” - если первая фраза имеет позитивной окраску, то вторая после “И” с большой вероятностью тоже.
  • Важнейшая составляющая тональной окраски объекта - наличие слов, инвертирующих тональность, части при дополнительном предикате.
  • Семантическую близость окрасок можно рассчитать с помощью расстояния между объектом и термом-окраской - оно всегда стремится к 0.
  • Тонально окрашенные слова вне контекста называют полярными: позитив - хороший, отличный, лучший, негатив - плохой, ужасный, худший.
  • Подходы для определения термов с тональной окраской: ручной, корпусно-зависимый и на основе словарей (а-ля wordnet).

Несколько дней назад в Мониториксе заработал новый сервис - контекстный мониторинг, который позволяет автоматически отбирать из информационного потока только нужные страницы с информацией в определенном контексте. Это позволит нашим клиентам существенно сократить время, потраченное на обработку новой информации и увеличить эффективность собственной работы.

Контекст может быть очень сложным и включать в себя другие контексты. Для понимания логики работы системы лучше всего рассмотреть конкретную задачу, решение которой в ручном режиме требует больших человеческих усилий и времени.

Пример: необходимо отследить все публикации по оператору мобильной связи life. Определенную сложность для мониторинга представляет омонимия - в России выпускается журнал с таким же названием, поэтому для оптимальной рабоы надо задавать сложный контекст.

Контекст 1. Сфера деятельности (профессиональный) - включает все ключевые термины, которые, как правило, используются в контексте деятельности компании и все вместе составляют ее семантическое описание. (more…)

Мониторинг должен не просто отображать информационный поток, но и уметь показывать главные события и тренды по интересующей теме. Основная задача здесь - сэкономить человеку как можно больше времени, необходимого на принятие решения.

В общем случае задача мониторинга сводится к нескольким этапам.

Этап постановки задачи:
1. Пользователь должен указать критерии отбора информации, таких как поисковый запрос или группа запросов;
2. выбрать временные рамки;
3. определить пространство, в котором расположен нужный объект (например, регион). (more…)

Современный мир перегружен информацией, и нет никакой возможности (и времени) читать все, что появилось за день и представляет интерес. Однако, несмотря на невероятный по объему поток данных, подавляющее большинство сообщений просто ретранслируют информацию, не являясь ее источником.

Возьмем любое событие, давшее информационный повод медиасреде. Оно может быть как статичным, не иметь дальнейшего развития (например, футбольный матч), так и динамичным, развивающемся во времени, как военный конфликт. Статичный информационный повод обычно затухает достаточно быстро, так как люди быстро теряют интерес к событиям, которые однажды произошли, но уже не повторятся. Мало кого интересует, например, прошедшая в Пекине Олимпиада - она закончилась и стала историей, поэтому и развития этой темы никогда больше не будет. (more…)

Комментарии - недооцененная часть современного Веба, которую мало кто рассматривает как полезную информацию и использует в маркетинговых или политических целях. Обычно пользователи оставляют комментарии, чтобы выразить свою точку зрения на событие, которое отразилось в появлении публикации на сайте.

О важности комментариев в информационном потоке можно судить по следующим параметрам:

1) информационная завершенность - комментарий по сути представляет мини-заметку на тему, заданную основным текстом, то есть по сути это тоже полезный контент; (more…)

Мониторикс различает множество различных веб-страниц, к каждой из которых применяет определенные правила.

На любой веб-странице есть некая информация, которая нужна пользователю, остальное же робот должен отбрасывать как информационный шум:

1) текст, передающий основную информацию - полезный слой для поиска информации

2) нетекстовая информация: картинки, видео-, аудиофайлы - полезная для агента информация

3) интерактивная информация: формы, кнопки и т.д., которые позволяют динамически управлять сайтом - бесполезная информация

4) другое: таблицы стилей, метаданные и т.д. - бесполезная информация (more…)

В современном Интернете различают различные сайты согласно функциям, которые они выполняют. Для эффективного сбора и обработки информации нужно понимать, откуда берется контент и кто его создает. Хороший мониторинг информации должен не только констатировать появления новых веб-страниц, посвященных интересующей теме, но и отслеживать их оригинальность и анализировать тип сайта для оценки возможного эффекта от распространения определенных данных.

В современном Интернете можно отметить следующие типы сайтов:

1) Корпоративные ресурсы, содержащие информацию о сфере деятельности и контакную информацию. Могут также иметь пресс-центр и новостной (или аналитический) раздел.

Контент создают сотрудники компании или организации, которая владеет ресурсом.

2) Тематические сообщества - это форумы, социальные сети, группы и клубы по интересам.

Могут также содержать календарь событий, новости, статьи, блоги - любую интересную информацию.

Контент создают сами пользователи, состоящие в сообществах. (more…)

Что бы ни говорили пессимисты, а кризис все расставляет на свои места, и сдуваться начинает прежде всего там, где непомерно надулось. Тем не менее, ограниченные финансовые возможности заставляют людей, чтобы выжить, работать лучше, и, к счастью, эра “освоения бюджетов” уже уходит в историю. Сейчас все зависит от того, насколько успешно каждая компания или агентство может приспособиться к изменившимся условиям и держаться на плаву, продавая свою продукцию или услуги.

Пока еще не все поняли, что для успеха в период кризиса нужно получить преимущество над конкурентом, а это может быть все, что угодно - цена, функциональность, гибкость или что-то другое, и пытаются экономить на самом важном - информации. А это - стратегия будущего поражения. (more…)

В последнее время начало появляться множество вопросов о количестве источников и полноте информации, которую мы собираем. Некоторое люди даже жалуются, что Мониторикс не находит всего того, что находит Яндекс (или Google), но находит что-то другое, чего нет в других поисковиках.

Чтобы разобраться с ответом на этот вопрос, нужно сначала разобраться, как же Мониторикс работает. Первое, что надо понять - интеллектуальный агент не привязан к шаблонам сайтов, как это делают другие системы, он изучает структуру страницы в процессе распознавания страницы. Это дает возможность не только гибко обучаться и производить мониторинг сайтов на наличие нужной информации, но и быстро индексировать ссылки в текстах, которые попадаются на пути робота. (more…)

В информационном пространстве нет целостности, разные информационные потоки существуют как бы сами по себе, хотя и порождаются одним и тем же событием. Например, открытие офиса иностранной компании несколько лет назад (такой крупной, как Google) породило бы следующие потоки информации:

1) пресс-релиз, выпущенный самой компанией
2) новость, которую подхватили журналисты
3) комментарии под новостью, оставленные заинтересовавшимися людьми
3) объявление о поиске регионального директора, размещенное представителями компании
4) обсуждение в блоге компании
5) обсуждения на форумах
6) сообщения о поиске директора в специализированных социальных сетях
(more…)