Не могу работать с набором данных JSON в твиттере - PullRequest
0 голосов
/ 01 мая 2018

Прежде всего, я начинающий, извиняюсь, если это слишком просто или тривиально.

Итак, у меня есть несколько больших наборов данных json для твиттера из archive.org (например, https://archive.org/details/archiveteam-twitter-stream-2017-01), которые я хотел бы отфильтровать по определенным хэштегам и сделать несколько читабельными, используя python. На данный момент я не могу открыть файл с помощью Python или Jupyter, и, похоже, не могу заказать файл вообще.

Пример того, как выглядят файлы:

{"creation_at": "Sun Oct 22 06:30:00 +0000 2017", "id": 921986981168422912, "id_str": "921986981168422912", "text": "RT @hypebizzle: \" Расскажите вашей собаке оставить меня в покое это раздражает \ "\ n \ nПервое из всех, убирайся из моего дома", "source": "\ u003ca href = \" http://twitter.com/download/iphone\" rel = \ "nofollow \" \ u003eTwitter для iPhone \ u003c / а \ u003e», "усеченный" ложь "in_reply_to_status_id": нулевой, "in_reply_to_status_id_str": нулевой, "in_reply_to_user_id": нулевой, "in_reply_to_user_id_str": нулевой, "in_reply_to_screen_name": нулевой, "пользователь": { "ID" : 421547249, "id_str": "421547249", "name": "Cris", "screen_name": "crisbeltran98", "location": "Cajeme, Sonora", "url": "http://Instagram.com/cristinabeltraan","description":"il futuro non \ u00e8 scritto // Lic.inPsicology на моем пути. \\ \ u201cCristina saludos, un beso \ "LFHP.", "translationator_type": "none", "protected": false, "проверено": false, "follow_count": 1498, "friends_count": 1383, "selected_count": 6, "favourites_count": 3174, "statuses_count": 39135, "creat_at": "Сб 26 ноября 02:51:49 +0000 2011", "utc_offset": - 25200, "time_zone": "Аризона", "geo_enabled" : правда, "языки": "эс", "contributors_enabled" ложь "is_translator" ложь "profile_background_color": "C0DEED", "profile_background_image_url": "http://pbs.twimg.com/profile_background_images/768201074/3b0047f4eb39cd54a3a82a2d62fa715a.png","profile_background_image_url_https":"https://pbs.twimg.com/profile_background_images/768201074/3b0047f4eb39cd54a3a82a2d62fa715a.png","profile_background_tile":true,"profile_link_color":"000088","profile_sidebar_border_color":"FFFFFF","profile_sidebar_fill_color":"DDEEF6","profile_text_color":"333333","profile_use_background_image":true,"profile_image_url":"http://pbs.twimg.com/profile_images/919935822694047745/nm6uOnr3_normal.jpg","profile_image_url_https":"https://pbs.twimg.com/profile_images/919935822694047745/nm6uOnr3_normal.jpg","profile_banner_url":"https://pbs.twimg.com/profile_banners/421547249/1508164767","default_profile":false,"default_profile_image":false,"following":null,"follow_request_sent":null,"notifications":null},"geo":null,"coordinates":null,"place":null,"contributors":null,"retweeted_status":

Есть ли кто-нибудь, кто знает, какие шаги предпринять? Я не могу найти решение в Интернете.

1 Ответ

0 голосов
/ 01 мая 2018

Добро пожаловать в переполнение стека! что ты уже испробовал? Когда я открываю JSON в Python, я делаю это так:

import json
import pprint

df = json.load(open('YOUR JSON DATA'))
pprint(df)

Как только это будет сделано, вы можете вызвать ваши данные, выполнив что-то вроде:

df[“created_at”]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...