.pos_ в SpaCy не возвращает никаких результатов в Python - PullRequest
0 голосов
/ 28 июня 2018

Я действительно новичок в программировании и Python, и я пытался использовать SpaCy в моем Python 3.x. Однако, когда я пытаюсь применить .pos_ к тексту, чтобы найти часть речи, я не получаю никакого результата для части речи. Я убедился, что SpaCy правильно установлен, и просмотрел другие записи Stackoverflow и этот один пост на github, однако это не помогло.

Вот код, который я использовал:

from spacy.lang.en import English
parser = English()

tokens = parser('She ran')
dir(tokens[0])
print(dir(tokens[0]))


def show_POS(text):
    tokens = parser(text)
    for token in tokens:
       print(token.text, token.pos_)


show_POS("She hit the wall.")


def show_dep(text):
    tokens = parser(text)
    for token in tokens:
        print(" {} : {} : {} :{}".format(token.orth_,token.pos_,token.dep_,token.head))


print("token : POS : dep. : head")
print("-------------------------")
show_dep("She hit the wall.")

ex1 = parser("he drinks a water")
for word in ex1:
print(word.text,word.pos_)

А вот и вывод:

/Users/dalals4/PycharmProjects/NLP-LEARNING/venv/bin/python 
/Users/dalals4/PycharmProjects/NLP_learning_practice_chp5.py
['_', '__bytes__', '__class__', '__delattr__', '__dir__', '__doc__', 
'__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', 
'__hash__', '__init__', '__init_subclass__', '__le__', '__len__', 
'__lt__', '__ne__', '__new__', '__pyx_vtable__', '__reduce__', 
'__reduce_ex__', '__repr__', '__setattr__', '__setstate__', 
'__sizeof__', '__str__', '__subclasshook__', '__unicode__', 
'ancestors', 'check_flag', 'children', 'cluster', 'conjuncts', 'dep', 
'dep_', 'doc', 'ent_id', 'ent_id_', 'ent_iob', 'ent_iob_', 'ent_type', 
'ent_type_', 'get_extension', 'has_extension', 'has_vector', 'head', 
'i', 'idx', 'is_alpha', 'is_ancestor', 'is_ascii', 'is_bracket', 
'is_currency', 'is_digit', 'is_left_punct', 'is_lower', 'is_oov', 
'is_punct', 'is_quote', 'is_right_punct', 'is_sent_start', 'is_space', 
'is_stop', 'is_title', 'is_upper', 'lang', 'lang_', 'left_edge', 
'lefts', 'lemma', 'lemma_', 'lex_id', 'like_email', 'like_num', 
'like_url', 'lower', 'lower_', 'n_lefts', 'n_rights', 'nbor', 'norm', 
'norm_', 'orth', 'orth_', 'pos', 'pos_', 'prefix', 'prefix_', 'prob', 
'rank', 'right_edge', 'rights', 'sent_start', 'sentiment', 
'set_extension', 'shape', 'shape_', 'similarity', 'string', 'subtree', 
'suffix', 'suffix_', 'tag', 'tag_', 'text', 'text_with_ws', 'vector', 
'vector_norm', 'vocab', 'whitespace_']
She 
hit 
the 
wall 
. 
token : POS : dep. : head
-------------------------
 She :  :  : She
 hit :  :  : hit
 the :  :  : the
 wall :  :  : wall
 . :  :  : .
he 
drinks 
a 
water 

Process finished with exit code 0

Любая помощь будет высоко ценится! Заранее большое спасибо :)

1 Ответ

0 голосов
/ 28 июня 2018

Проблема здесь в том, что вы импортируете только английский языковой класс , который включает в себя данные для конкретного языка, такие как правила токенизации. Но вы на самом деле не загружаете модель , которая позволяет spaCy предсказывать теги части речи и другие лингвистические аннотации.

Если вы еще этого не сделали, вам сначала нужно установить пакет модели , например. маленькая английская модель:

python -m spacy download en_core_web_sm

Затем вы можете указать spaCy загрузить его, позвонив по номеру spacy.load:

import spacy

nlp = spacy.load('en_core_web_sm')
doc = nlp(u"she ran")
for token in doc:
    print(token.text, token.pos_)

Это даст вам экземпляр класса English с загруженными весами модели, поэтому spaCy может предсказать теги части речи, метки зависимостей и именованные объекты.

Если вы новичок в spaCy, я бы порекомендовал справочник spaCy 101 в документации. Он объясняет наиболее важные концепции и включает в себя множество примеров, которые вы можете запустить.

...