Как заменить короткие слова на полные слова из твитов, используя Python - PullRequest
0 голосов
/ 07 мая 2018

Я занимаюсь анализом настроений в твиттере. Большинство твитов содержат короткие слова, и я хочу заменить их как оригинальные / полные слова.

Предположим, что твит:

I was wid Ali.

Я хочу конвертировать:

wid -> with

Аналогично

wud -> would
u -> you
r -> are

У меня 6000 твитов, в которых много коротких слов. Как я могу их заменить? есть ли в Python библиотека для этой задачи? или какой-нибудь словарь коротких слов доступен онлайн?

Я прочитал ответ Заменить апостроф / короткие слова в Python Вопрос, но он содержит только словарь апостроф.

В настоящее время я использую NLTK, но эта задача невозможна с NLTK.

1 Ответ

0 голосов
/ 07 мая 2018

Похоже, что следующий веб-сайт имеет необходимый словарь: https://www.noslang.com/search Вы можете отправить запрос с вашего кода Python и получить перевод.

Вот рабочий код:

import requests
prefixStr = '<div class="translation-text">'
postfixStr = '</div'

slangText = 'I was wid Ali.'

r = requests.post('https://www.noslang.com/', {'action': 'translate', 'p': 
slangText, 'noswear': 'noswear', 'submit': 'Translate'})
startIndex = r.text.find(prefixStr)+len(prefixStr)
endIndex = startIndex + r.text[startIndex:].find(postfixStr)
print(r.text[startIndex:endIndex])
...