Выделите глагольные фразы, используя spacy и html - PullRequest
0 голосов
/ 28 августа 2018

Я разработал код для красных фраз глагола и вывел его в виде HTML.

from __future__ import unicode_literals
import spacy,en_core_web_sm
import textacy
import codecs
nlp = en_core_web_sm.load()
sentence = 'The author is writing a new book. The dog is barking.'
pattern = r'<VERB>?<ADV>*<VERB>+'
doc = textacy.Doc(sentence, lang='en_core_web_sm')
lists = textacy.extract.pos_regex_matches(doc, pattern)
with open("my.html","w") as fp:
    for list in lists:
        search_word = (list.text)
        fp.write(sentence.replace(search_word, '<span style="color: red">{}</span>'.format(search_word)))

Токовый выход

The author **is writing** a new book. The dog is barking.The author is writing a new book. The dog **is barking.**

Предложение повторяется дважды, сначала пишется, а последний лает.

Ожидаемый результат:

The author **is writing** a new book. The dog **is barking.**

Должен ли я сделать токенизацию предложения перед отправкой на проверку списка? Пожалуйста, помогите?

1 Ответ

0 голосов
/ 28 августа 2018

Нашли альтернативный и более логичный способ. Вместо замены во всем предложении лучше заменить в предложении, которое имеет образец.

with open("my.html","w") as fp:
for list in lists:
    search_word = (list.text)
    containing_sentence = [i for i in sentence.split('.') if str(search_word) in str(i)][0]
    fp.write(containing_sentence.replace(search_word, '<span style="color: red">{}</span>'.format(search_word)))

вышеприведенный код напишет предложения отдельно. Если вы хотите сделать это как предложение, добавьте изменения в список и присоедините их перед записью в файл, как показано ниже.

mod_sentence = []
for list in lists:
    search_word = (list.text)
    containing_sentence = [i for i in sentence.split('.') if str(search_word) in str(i)][0]+'.'
    mod_sentence.append(containing_sentence.replace(search_word, '<span style="color: red">{}</span>'.format(search_word)))
with open("my.html","w") as fp:
    fp.write(''.join(mod_sentence))

Надеюсь, это поможет! Ура!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...