Очистка данных Twitter в Excel - PullRequest
       5

Очистка данных Twitter в Excel

0 голосов
/ 05 апреля 2020

Я работаю над проектом для школы, но теперь с онлайн-инструктором гораздо сложнее получить помощь. У меня есть набор данных в Excel, и есть ссылки и смайлики, которые мне нужно удалить.

Вот так выглядят мои данные сейчас. Я хочу избавиться от ссылки https://t.co/ ......., смайликов и некоторых странных персонажей.

screenshot of twitter data

Кто-нибудь есть какие-либо предложения о том, как сделать это в Excel? или может быть python?

Ответы [ 2 ]

0 голосов
/ 05 апреля 2020

Я не уверен, как это сделать в Excel, однако вы можете легко загрузить файл Excel в 'pandas .dataFrame', а затем использовать регулярное выражение, чтобы игнорировать символы не-ascii:

file_path = '/some/path/to/file.xlsx'
df = pd.read_excel(file_path , index_col=0) 
df = df.replace(r'\W+', '', regex=True)

Здесь вы можете найти дополнительное объяснение о загрузке файла Excel в фрейм данных Здесь вы можете прочитать о других способах игнорирования символов не-ascii в dataframe

0 голосов
/ 05 апреля 2020

Согласно этой ссылке , я полагаю, вы могли бы выполнить такую ​​функцию:

def checkChars(inputString):
    outputString = ""
    allowedChars = [" ", "/", ":", ".", ",",";"] # The characters you want to include
    for l in inputString:
        if l.isalnum() or l in allowedChars: # This line will check if the character is alphanumeric or is in your allowed character list
            outputString += l
    return outputString

Дайте мне знать, если это помогло! Ура! * * 1006

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...