Есть ли способ определить часть речевых паттернов в наборе данных предложений? - PullRequest
0 голосов
/ 27 сентября 2019

У меня есть кадр данных с предложениями панд, и я хотел бы определить часть речевых паттернов в каждом предложении.Какой хороший способ сделать это?

Ответы [ 2 ]

0 голосов
/ 30 сентября 2019

У меня есть простой подход, который может вам помочь.Возьмите список n-грамм, сгенерированный из ваших предложений.Те, которые встречаются максимальное количество раз, могут быть идентифицированными шаблонами.

0 голосов
/ 28 сентября 2019

Два самых популярных POS-тега для Python - это NLTK и spaCy. spaCy и быстрее, и проще в использовании, и по мере того, как вам нужно делать больше, spaCy также предоставляет приятный API для взаимодействия с wordnet, Vector Векторы и другими более продвинутыми инструментами.

Вот как вы читаете POS с помощью spaCy:

import spacy

nlp = spacy.load('en_core_web_sm')
doc = nlp(u'Apple is looking at buying U.K. startup for $1 billion')

for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
            token.shape_, token.is_alpha, token.is_stop)
...