Удалить разные бессмысленные токены из текста в Python - PullRequest
0 голосов
/ 07 октября 2018

Я новичок в теме моделирования.После выполнения токенизации с использованием NLTK, , например , у меня появляются следующие токены:

'1-in', '1-joerg', '1-justine', '1-lleyton', '1-million', '1-nil', '1of','00pm-ish', '01.41', '01.57','0-40', '0-40f',

Я считаю, что они бессмысленны и не могут помочь мне в остальной части моего процесса.Это правильно?Если да, есть ли кто-нибудь, кто имеет представление о регулярном выражении или ... который следует использовать для удаления этих токенов из моего списка токенов (они настолько разные, и я не мог придумать для этого регулярное выражение)?

1 Ответ

0 голосов
/ 07 октября 2018

Я нашел самый простой способ избавиться от слова, которое я не хочу в строке, - заменить их пробелом с помощью csv.

import re

def word_replace(text, replace_dict):
rc = re.compile(r"[A-Za-z_]\w*")

def translate(match):
    word = match.group(0).lower()
    print(word)
    return replace_dict.get(word, word)

return rc.sub(translate, text)

old_text = open('C:/the_file_with_this_string').read()

replace_dict = {
"unwanted_string1" : '',
"unwanted_string2" : '',
"unwanted_string3" : '',
"unwanted_string4" : '',
"unwanted_string5" : '',
"unwanted_string6" : '',
"unwanted_string7" : '',
"unwanted_string8" : '',
"unwanted_string9" : '',
"unwanted_string10" : ''
 }

output = word_replace(old_text, replace_dict)
f = open("C:/the_file_with_this_string", 'w')
f.write(output)
print(output)

замените 'C: / the_file_with_this_string' на путь к файлу со строкой

замените unwanted_string (#) строкой, от которой вы хотите избавиться

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...