Определение тональности публикаций - задача сложная и неоднозначная. Зачастую точно определить тональность не может даже вручную, и несколько экспертов расходятся во мнениях, какую тональную окраску имеет объект в определенном тексте.
Мы используем следующие подходы для sentiment analysis:
- Тонально окрашенные ключевые слова и фразы бывают контестно-зависимыми и контекстно-независимыми. Первые определяются по карте рисков.
- Контекстно-независимые слова и фразы имеют конечное число состояний и позволяют задавать исходные данные для машинного обучения
- Для определения тональности важен принцип “И” - если первая фраза имеет позитивной окраску, то вторая после “И” с большой вероятностью тоже.
- Важнейшая составляющая тональной окраски объекта - наличие слов, инвертирующих тональность, части при дополнительном предикате.
- Семантическую близость окрасок можно рассчитать с помощью расстояния между объектом и термом-окраской - оно всегда стремится к 0.
- Тонально окрашенные слова вне контекста называют полярными: позитив - хороший, отличный, лучший, негатив - плохой, ужасный, худший.
- Подходы для определения термов с тональной окраской: ручной, корпусно-зависимый и на основе словарей (а-ля wordnet).



