Question

Я работаю над проблемой классификации текста.Мой CSV-файл содержит столбец с описанием «description», который описывает события.К сожалению, этот столбец полон специальных символов, кроме английских слов.Иногда все поле подряд заполнено такими символами, или, иногда, несколько слов имеют такие специальные символы, а остальные - английские слова.Я показываю вам два поля образца из двух разных строк:

├á┬ñ┬╣├á┬ñ┬░ ├á┬ñ┬╡├á┬ñ┬░├á┬Ñ┬ì├á┬ñ┬╖ ├á┬ñΓÇó├á┬ÑΓé¼ ├á┬ñ┬ñ├á┬ñ┬░├á┬ñ┬╣ ├á┬ñΓÇí├á┬ñ┬╕ ├á┬ñ┬╡├á┬ñ┬░├á┬Ñ┬ì├á┬ñ┬╖ ├á┬ñ┬¡├á┬ÑΓé¼ ├á┬ñ┬╕├á┬ñ┬┐├á┬ñΓÇÜ├á┬ñ┬º├á┬Ñ┬ü ├á┬ñ┬╕├á┬ÑΓÇí├á┬ñ┬¿├á┬ñ┬╛ ├á┬ñ┬ª├á┬Ñ┬ì├á┬ñ┬╡├á┬ñ┬╛├á┬ñ┬░├á┬ñ┬╛ ├á┬ñΓÇá├á┬ñ┬»├á┬ÑΓÇ╣├á┬ñ┼ô├á┬ñ┬┐├á┬ñ┬ñ ├á┬ñ┬╕├á┬ñ┬┐├á┬ñΓÇÜ├á┬ñ┬º├á┬ÑΓé¼ ├á┬ñ┬¬├á┬Ñ┬ì├á┬ñ┬░├á┬ÑΓé¼├á┬ñ┬«├á┬ñ┬┐├á┬ñ┬»├á┬ñ┬░ ├á┬ñ┬▓├á┬ÑΓé¼├á┬ñΓÇö ├á┬ñ┬½├á┬Ñ┬ü├á┬ñ┼╕├á┬ñ┬¼├á┬ÑΓÇ░├á┬ñ┬▓ ├á┬ñ┼╕├á┬ÑΓÇÜ├á┬ñ┬░├á┬Ñ┬ì├á┬ñ┬¿├á┬ñ┬╛├á┬ñ┬«├á┬ÑΓÇí├á┬ñΓÇÜ├á┬ñ┼╕ ├á┬ñΓÇó├á┬ñ┬╛ ├á┬ñΓÇá├á┬ñ┬»├á┬ÑΓÇ╣├á┬ñ┼ô├á┬ñ┬¿ ├á┬ñ┬Å├á┬ñ┬«├á┬ñ┬¼├á┬ÑΓé¼├á┬ñ┬Å├á┬ñ┬« ├á┬ñΓÇö├á┬Ñ┬ì├á┬ñ┬░├á┬ñ┬╛├á┬ñΓÇ░├á┬ñΓÇÜ├á┬ñ┬í ├á┬ñ┬«├á┬ÑΓÇí├á┬ñΓÇÜ ├á┬ñΓÇó├á┬ñ┬░├á┬ñ┬¿├á┬ÑΓÇí ├á┬ñ┼ô├á┬ñ┬╛ ├á┬ñ┬░├á┬ñ┬╣├á┬ÑΓé¼ ├á┬ñ┬╣├á┬Ñ╦å ├á┬ñ┼ô├á┬ñ┬┐├á┬ñ┬╕├á┬ñ┬«├á┬ÑΓÇí├á┬ñΓÇÜ ├á┬ñΓÇª├á┬ñΓÇÜ├á┬ñ┬í├á┬ñ┬░-19 ├á┬ñ┼╕├á┬ÑΓé¼├á┬ñ┬«├á┬ÑΓÇí├á┬ñΓÇÜ ├á┬ñ┬¡├á┬ñ┬╛├á┬ñΓÇö ├á┬ñ┬▓├á┬ÑΓÇí├á┬ñ┬ñ├á┬ÑΓé¼ ├á┬ñ┬╣├á┬Ñ╦å ├á┬ñΓÇá├á┬ñ┬¬ ├á┬ñ┬╕├á┬ñ┬¡├á┬ÑΓé¼ ├á┬ñ┬╕├á┬ÑΓÇí ├á┬ñ┬¿├á┬ñ┬┐├á┬ñ┬╡├á┬ÑΓÇí├á┬ñ┬ª├á┬ñ┬¿ ├á┬ñ┬╣├á┬Ñ╦å ├á┬ñ┬╕├á┬ñ┬«├á┬ñ┬╛├á┬ñ┼ô ├á┬ñΓÇó├á┬ÑΓÇí ├á┬ñ┬»├á┬Ñ┬ü├á┬ñ┬╡├á┬ñ┬╛├á┬ñΓÇ£├á┬ñΓÇÜ ├á┬ñΓÇó├á┬ÑΓÇ╣ ├á┬ñ┬¬├á┬Ñ┬ì├á┬ñ┬░├á┬ÑΓÇ╣├á┬ñ┬ñ├á┬Ñ┬ì├á┬ñ┬╕├á┬ñ┬╛├á┬ñ┬╣├á┬ñ┬¿ ├á┬ñΓÇó├á┬ñ┬░├á┬ñ┬¿├á┬ÑΓÇí ├á┬ñΓÇª├á┬ñ┬╡├á┬ñ┬╢├á┬Ñ┬ì├á┬ñ┬» ├á┬ñ┬¬├á┬ñ┬º├á┬ñ┬╛├á┬ñ┬░├á┬ÑΓÇí├á┬ñΓÇÜ

Unwind on the strums of Guitar &  immerse your soul into the magical vibes of music! ├»┬╕┬Å? ├»┬╕┬Å?..Guitar Night By Ashmik Patil.July 19, 2018.Thursday.9 PM Onwards.*Cover charges applicable...#GuitarNight #MusicalNight #MagicalMusic #MusicLove #Party #Enjoy #TheBarTerminal #Mumbaikars #Mumbai

В первом поле целиком заполнено такими нечитаемыми символами, тогда как во втором случае присутствует только несколько таких символов.Остальные - английские слова.

Я хочу удалить только те специальные символы, которые сохраняют английские слова такими, какие они есть, поскольку мне нужны эти английские слова, чтобы сформировать пакет слов на более позднем этапе.

Как реализовать это с помощью Python (я использую ноутбук Jupyter)?

Shubham Sinha · Answer 1 · 24 сентября 2018

Вы можете сделать это, используя regex .Предполагая, что вы смогли извлечь текст из файла CSV -

#python 2.7
import re
text = "Something with special characters á┬ñ┬╡├á┬ñ┬░├á┬Ñ┬ì├á┬ñ┬╖"
cleaned_text = re.sub(r'[^\x00-\x7f]+','', text)
print cleaned_text

Output - Something with special characters

Чтобы понять используемое выражение регулярного выражения, см. Здесь .

Raunaq Jain · Answer 2 · 24 сентября 2018

Вы можете закодировать вашу строку в ascii и ignore ошибок.

>>> text = 'Something with special characters á┬ñ┬╡├á┬ñ┬░├á┬Ñ┬ì├á┬ñ┬╖'
>>> text = text.encode('ascii', 'ignore')

, что даст вам двоичный объект, который вы можете в дальнейшем декодировать снова до utf

>>> text
b'Something with special characters '

>>> text = text.decode('utf')
>>> text
'Something with special characters '

sgDysregulation · Answer 3 · 24 сентября 2018

Вы можете использовать панды для чтения файла CSV в кадре данных.используя:

import pandas as pd 
df = pd.read_csv(fileName,convertor={COLUMN_NUMBER:func})

где func, это функция, которая принимает одну строку и удаляет специальные символы.это можно сделать по-разному, используя регулярные выражения, но вот простой

import string
def func(strg):
    return ''.join(c for c in strg if c in string.printable[:-5])

в качестве альтернативы, вы можете сначала прочитать кадр данных, а затем применить, чтобы изменить столбец описания.т../:;<=>?@[\]^_`‹| rout~ '

Предварительная обработка текста + Python + CSV: удаление специальных символов из столбца CSV

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Предварительная обработка текста + Python + CSV: удаление специальных символов из столбца CSV

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы