Я искал хороший способ удалить все необычные символы из дампа JSON твитов, который я использую для компиляции набора данных для анализа настроений.
символов, которые я пытаюсь удалить = ン ボ チ ョ ボ100 最 安 値
Эти символы появляются в моих данных твита, и я пытаюсь удалить их с помощью регулярных выражений, но безрезультатно.
import json
import csv
import pandas as pd
import matplotlib.pyplot as plt
tweets_data_path = 'twitter_data.txt'
tweets_data = []
tweets_text_data = []
tweets_file = open(tweets_data_path, "r")
for line in tweets_file:
try:
tweet = json.loads(line)
tweets_data.append(tweet)
except:
continue
for tweet in tweets_data:
if tweet['text']:
tweets_text_data.append(tweet['text'])
print(tweets_text_data)
with open('dataset_file', 'w') as dataset_file:
writer = csv.writer(dataset_file)
writer.writerow(tweets_text_data)
Я пытался использовать re.sub (), чтобы убрать ихэти символы, но это не будет работать.Как я могу сделать эту работу?