Я пытаюсь удалить неанглийские слова из текстовых данных в CSV-файле. Я использую Python для проведения этого.
Я прочитал CSV-файл, используя этот код:
blogdata = pd.read_csv("C:/Users/hyoungm/Downloads/blogdatatest.csv", encoding = 'utf-16', sep = "\t")
print(blogdata)
На данный момент осталось 10179 строк.
Затем я использовал следующий код для удаления неанглийских слов из данных, особенно в столбце «публикация»:
blogdata = blogdata[~blogdata['posting'].str.contains(r'[^\x00-\x7F]+')]
print(blogdata)
Тогда у меня осталось всего 3693 строки. Я думаю, что приведенный выше код удалил все строки, в которых есть неанглийские слова.
Я борюсь с тем, как удалить эти неанглийские слова и сохранить другие части, чтобы я мог сохранить как можно больше строк.
Я делюсь набором данных на следующем веб-сайте: https://github.com/GemmyMoon/nonenglish
Может кто-нибудь помочь мне с этим?
Заранее спасибо!