Файл JSON не будет полностью загружен в файл Python - PullRequest
0 голосов
/ 30 сентября 2018

Я пишу чат-бота на python с тензорным потоком, который использует дамп всех комментариев Reddit за последние несколько лет, найденных здесь https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/?st=j9udbxta&sh=69e4fee7. Я скачал комментарии через торрент, и все, казалось, прошло хорошо.Однако, когда я читаю файл JSON в программу на Python, кажется, что весь файл не загружается.Данные за каждый месяц в 2015 году составляют около 15 000 КБ, но JSON загрузит только первые 2600 строк, в то время как настоящий файл содержит сотни тысяч строк.Когда я смотрю на последнюю строку, загруженную из файла JSON, по какой-то причине, похоже, она обрывается и в середине предложения.

    {"subreddit":"sydney","author_flair_text":null,"id":"cqugtij","gilded":0,"removal_reason":null,"downs":0,"archived":false,"created_utc":"1430439358","link_id":"t3_34e5fd","ups":6,"subreddit_id":"t5_2qkob","name":"t1_cqugtij","score_hidden":false,"author_flair_css_class":null,"parent_id":"t1_cqttsc3","controversiality":0,"score":6,"author":"SilverMeteor9798","body":"As state transport minister almost every press release from Gladys had something in there about how the liberals were \"getting on with the job\" and blaming Labor for something. It wasn't necessarily false, it just got tiresome after a while particular

Это код, который я использую для чтенияфайл JSON

    timeframe = '2015-05'
    with open("Data/reddit_data/{}/RC_{}".format(timeframe.split('-')[0], timeframe), buffering=1000) as f:
        for row in f:
            row = json.loads(row)

Где таймфрейм - это конкретный файл JSON, связанный с комментариями Reddit в 05/2015.Когда я запускаю этот код, я получаю эту ошибку

    json.decoder.JSONDecodeError: Unterminated string starting at: line 1 column 368 (char 367)

Это имеет смысл для меня, потому что последняя строка загруженного файла JSON обрезается, но как я могу позволить python прочитать весь файл JSON?Я следую учебнику по ChatBot для senddex на YouTube (https://www.youtube.com/watch?v=dvOnYLDg8_Y),), и даже когда я запускаю его точный код, я получаю ту же ошибку. Как загрузить весь файл JSON, чтобы я мог прочитать сотни тысяч комментариев«Я пытался изменить буферизацию и пытался перезагружать комментарии.

...