Я использую Набор данных от Standford (см. Dev Set 2.0). Этот файл в формате JSON. Когда я читаю файл, это словарь, но я изменил его на DF:
import json
json_file = open("dev-v2.0.json", "r")
json_data = json.load(json_file)
json_file.close()
df = pd.DataFrame.from_dict(json_data)
df = df[0:2] # for this example, only a subset
Вся необходимая информация находится в столбце df ['data'] ,В каждой строке содержится так много данных в следующем формате:
{'title': 'Normans', 'paragraphs': [{'qas': [{'question': 'In what country is Normandy located?', 'id': '56ddde6b9a695914005b9628', 'answers': [{'text': 'France', 'answer_start': 159}, {'text': 'France', 'answer_start': 159}, {'text': 'France', 'answer_start': 159}, {'text': 'France', 'answer_start': 159}], 'is_impossible': False}, {'question': 'When were the Normans in Normandy?', 'id': '56ddde6b9a695914005b9629', 'answers': [{'text': '10th and 11th centuries', 'answer_start': 94}, {'text': 'in the 10th and 11th centuries', 'answer_start': 87}
Я хочу запросить все Вопросы и Ответы из всех строк в DF. Итак, в идеале вывод будет таким:
Question Answer
'In what country is Normandy located?' 'France'
'When were the Normans in Normandy?' 'in the 10th and 11th centuries'
Извините заранее! Я прочитал 'Хороший пример' пост. Но мне было трудно создать воспроизводимые данные для этого примера, так как похоже, что это словарь, со списком внутри, внутри списка небольшой словарь, внутри этого другого словаря, затем снова словарь ... когда я использую print (df ["data"]) , это только печать небольшого подмножества ... (что не помогает воспроизвести эту проблему).
print(df['data'])
0 {'title': 'Normans', 'paragraphs': [{'qas': [{...
1 {'title': 'Computational_complexity_theory', '...
Name: data, dtype: object
Большое спасибо заранее!