Разница между BOW (Bag Of Words) и TextBlob - PullRequest
0 голосов
/ 25 марта 2020

Я новичок ie в этой области. Недавно делал анализ настроений на данных твиттера. И наткнулся на два подхода: 1) TextBlob - python библиотека для обработки текстовых данных 2) BOW (Bag Of Words)

В чем разница между ними? Подход двух разностей или есть какое-то сходство?

1 Ответ

0 голосов
/ 25 марта 2020

Мешок слов и TextBlob используются для обработки текста в задачах НЛП. Мешок слов - это модель / концепция, используемая в НЛП, тогда как TextBlob - это библиотека python, используемая для обработки текстовых данных.

Модель «мешок слов», или сокращенно BoW, - это способ извлечения особенностей из текста для использования в моделировании, например, в алгоритмах машинного обучения.

Этот подход очень простой и гибкий, и его можно использовать множеством способов для извлечения функций из документов.

Мешок слов - это представление текста, которое описывает вхождение слов в документ. Он включает в себя две вещи:

Словарь известных слов. Мера наличия известных слов. Это называется «мешок» слов, потому что любая информация о порядке или структуре слов в документе отбрасывается. Модель касается только того, встречаются ли известные слова в документе, а не в каком документе. Подробнее: - https://machinelearningmastery.com/gentle-introduction-bag-words-model/

TextBlob - это библиотека Python для обработки текстовых данных. Он предоставляет простой API для погружения в общие задачи обработки естественного языка (NLP), такие как тегирование части речи, извлечение имен существительных, анализ настроений, классификация, перевод и многое другое. Подробнее: - https://textblob.readthedocs.io/en/dev/

Учебное пособие: - https://stackabuse.com/python-for-nlp-introduction-to-the-textblob-library/

...