Я извлекаю дополнительные поля из файла JSONL с помощью json2csv.py (скомпилированного с использованием twar c), и у меня возникают проблемы с извлечением некоторых текстовых полей, содержащихся в массиве. Это массив, и я хочу иметь возможность вытаскивать только текст хэштега.
"entities": {
"hashtags": [
{
"text": "NoJusticeNoPeace",
"indices": [
65,
82
]
},
{
"text": "justiceforNaledi",
"indices": [
83,
100
]
},
Я могу добавить другие поля, в которых нет массивов, используя этот код:
python json2csv.py tweets_may.jsonl -e full_text retweeted_status.extended_tweet.full_text > testfull_text.csv
Однако я не могу понять, как вытащить массив или его элементы. Отдельный текст хэштега можно идентифицировать с помощью следующего retweeted_status.extended_tweet.entities.hashtags.0.text
, которое я пробовал использовать:
python json2csv.py tweets_may.jsonl -e all_hashtags retweeted_status.extended_tweet.entities.hashtags.0.text > testhash.csv
Но это просто возвращает пустой столбец. В идеале я хотел бы иметь возможность вывести все вхождения «текста» в массиве «хэштегов» либо в один столбец, либо в отдельные столбцы.