Есть ли какая-нибудь библиотека НЛП для преобразования сокращенных слов обратно? - PullRequest
0 голосов
/ 27 апреля 2019

Есть ли какая-либо библиотека Python, которую мы можем использовать для преобразования аббревиатуры обратно?
Как what's в what is, it's в it is и т. Д.
Я хочу использовать ее для предварительной обработки необработанногопредложение.

На самом деле, я также не понимал, должен ли я сделать это или просто удалить ' и преобразовать what's в whats.В противном случае, в любом случае, is будет удалено как стоп-слово на следующем шаге.

В другой руке, мы должны рассмотреть whats и what как lemma?
Или мыследует использовать стеммер, чтобы отключить s?

Кроме того, я новичок в НЛП, поэтому было бы гораздо лучше, если бы вы, ребята, могли бы порекомендовать мне некоторые материалы или учебные пособия о стандартной предварительной обработке данных для словатокенизация, например, какие шаги нам нужно совершить полностью?

Кстати, я не думаю, что аббревиатура - это правильный термин, но я не очень хорош в английском.Итак, представьте мне формальный термин НЛП или лингвистический термин, который мы использовали для what's, how's и т. Д.

Заранее спасибо.

1 Ответ

2 голосов
/ 27 апреля 2019

Обычно библиотеки NLP, такие как Spacy и NLTK , хорошо справляются с преобразованием токенизации, например "It's" в ["It", "'s"]. но преобразовать что-то вроде what's в ["what", "is"] более проблематично, потому что у вас могут быть примеры, такие как "Эми балетная студия", где "s" не "is".

Вы можете отобразить все дела (он, я, что и т. Д.) И добавить новые правила для токенизатора, Spacy позволяет это:

import spacy
from spacy.symbols import ORTH, LEMMA, POS, TAG

nlp = spacy.load("en_core_web_sm")
doc = nlp(u"He's buying that")  # phrase to tokenize
print([w.text for w in doc])  # ['He', "'s", "buying", 'that']

# add special case rule
special_case = [{ORTH: u"He'", LEMMA: u"He", POS: u"PRONOUM"}, {ORTH: u"is"}]
nlp.tokenizer.add_special_case(u"He's", special_case)

# check new tokenization
print([w.text for w in nlp(u"He's buying that")])  # ["He'", "is", "buying", "that"]

Этот gist проделывает большую работу по настройке этих правил. Но я не уверен, стоит ли это делать, возможно, это не окажет большого влияния на задачу, которую вы выполняете.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...