Как удалить необычные символы из дампа JSON в Python? - PullRequest
0 голосов
/ 28 сентября 2018

Я искал хороший способ удалить все необычные символы из дампа JSON твитов, который я использую для компиляции набора данных для анализа настроений.

символов, которые я пытаюсь удалить = ン ボ チ ョ ボ100 最 安 値

Эти символы появляются в моих данных твита, и я пытаюсь удалить их с помощью регулярных выражений, но безрезультатно.

import json
import csv
import pandas as pd
import matplotlib.pyplot as plt

tweets_data_path = 'twitter_data.txt'

tweets_data = []
tweets_text_data = []
tweets_file = open(tweets_data_path, "r")
for line in tweets_file:
    try:
        tweet = json.loads(line)
        tweets_data.append(tweet)
    except:
        continue

for tweet in tweets_data:
    if tweet['text']:
        tweets_text_data.append(tweet['text'])

print(tweets_text_data)

with open('dataset_file', 'w') as dataset_file:
    writer = csv.writer(dataset_file)
    writer.writerow(tweets_text_data)

Я пытался использовать re.sub (), чтобы убрать ихэти символы, но это не будет работать.Как я могу сделать эту работу?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...