Прежде чем анализировать фрагменты текста, вам необходимо предварительно обработать заданный текст, удалив пунктуацию, исправить язык, разделить пробелы, уменьшить весь текст и сохранить слова в итерируемой структуре данных.
Для базового анализа настроений можно использовать следующие методы:
Мешок слов
В методе мешка слов мы, в основном, просматриваем мешок (файл) слов и проверяем, содержат ли они итерацию, сделанную нами. Если это так, то мы присваиваем какое-то значение присутствию каждого слова, чтобы взвесить общее настроение текста.
Эта ссылка должна помочь вам понять больше об этом
https://en.wikipedia.org/wiki/Bag-of-words_model
Извлечение и маркировка ключевых слов
Ключевые слова и важную информацию можно извлечь из входного текста, пометив элементы и удалив ненужные данные.
Например:
Меня зовут Джон.
Здесь Джон, имя - это информация, а «есть» на самом деле не нужно.
Точно так же можно удалить глаголы и другие неважные вещи, чтобы сохранить только основную информацию.
Chunking и Chinking помогают.
Эта ссылка должна быть полезной.
http://nltk.org/book/ch07.html