SpaCy TextCategorizer Подробный конвейер - PullRequest
0 голосов
/ 26 февраля 2019

Я сейчас работаю над проектом НЛП.На самом деле, когда я исследовал, как бороться с НЛП, я нашел несколько статей о SpaCy.Но, поскольку я все еще новичок в Python, я не понимаю, как работает конвейер SpaCy TextCategorizer.

Есть ли какие-либо подробности о том, как работает этот конвейер?Использует ли TextCategorizer Pipeline также извлечение текстовых функций, таких как Bag of Words, TF-IDF, Word2Vec или что-то еще?А какую модель архитектуры используют в SpaCy TextCategorizer?Есть кто-то, кто мог бы объяснить мне об этом?

1 Ответ

0 голосов
/ 27 февраля 2019

В документации много информации:

Модель поддерживает классификацию с несколькими не взаимоисключающими метками. Вы можете довольно легко изменить архитектуру модели , но по умолчанию класс TextCategorizer использует сверточную нейронную сеть для назначения чувствительных к положению векторов каждому слову в документе.TextCategorizer использует свою собственную модель CNN, чтобы избежать разделения весов с другими компонентами конвейера.Тензор документа затем суммируется путем объединения максимальных и средних пулов, и многослойный персептрон используется для прогнозирования выходного вектора длины nr_class до того, как логистическая активация применяется поэлементно.Значение каждого выходного нейрона - это вероятность присутствия некоторого класса.

...