Как удалить неанглийские слова из текстовых данных в CSV-файле (Python) - PullRequest
0 голосов
/ 10 апреля 2019

Я пытаюсь удалить неанглийские слова из текстовых данных в CSV-файле. Я использую Python для проведения этого.

Я прочитал CSV-файл, используя этот код:

blogdata = pd.read_csv("C:/Users/hyoungm/Downloads/blogdatatest.csv", encoding = 'utf-16', sep = "\t")
print(blogdata)

На данный момент осталось 10179 строк.

Затем я использовал следующий код для удаления неанглийских слов из данных, особенно в столбце «публикация»:

blogdata = blogdata[~blogdata['posting'].str.contains(r'[^\x00-\x7F]+')]
print(blogdata)

Тогда у меня осталось всего 3693 строки. Я думаю, что приведенный выше код удалил все строки, в которых есть неанглийские слова.

Я борюсь с тем, как удалить эти неанглийские слова и сохранить другие части, чтобы я мог сохранить как можно больше строк.

Я делюсь набором данных на следующем веб-сайте: https://github.com/GemmyMoon/nonenglish

Может кто-нибудь помочь мне с этим?

Заранее спасибо!

...