Проблема состоит в том, чтобы сохранить словарь для анализа данных, чтобы он масштабировался.Я выполняю поиск 10000 и, основываясь на результатах, сохраняю словарь для каждого запроса.Наконец, я получаю словарь, подобный следующему:
{
'query_1' : {'has_result': True (or False),
'direct_result': True (or False),
'title': "title_1",
'summary': "summary_1",
'infobox': {'header_11': "data_11",
'header_12': "data_12",
.
.
.
}
'query_2' : {'has_result': True (or False),
'direct_result': True (or False),
'title': "title_2",
'summary': "summary_2",
'infobox': {'header_21': "data_21",
'header_22': "data_22",
.
.
.
}
.
.
.
}
Проблемной частью, очевидно, является «информационный блок».Я понятия не имею, сколько пар ключ-значение я получу за каждый «информационный блок» (обычно не более 50).И ключи, как ожидается, будут разными для каждого информационного ящика.
Сейчас я могу думать только о следующем способе сохранения данных в формате CSV.
+---------+------------+---------------+---------+-----------+----------------+--------------+
| query | has_result | direct_result | title | summary | infobox_header | infobox_data |
+---------+------------+---------------+---------+-----------+----------------+--------------+
| query_1 | TRUE | TRUE | title_1 | summary_1 | header_1 | data_1 |
| query_1 | TRUE | TRUE | title_1 | summary_1 | header_2 | data_2 |
| query_1 | TRUE | TRUE | title_1 | summary_1 | header_3 | data_3 |
| query_1 | TRUE | TRUE | title_1 | summary_1 | header_4 | data_4 |
| query_1 | TRUE | TRUE | title_1 | summary_1 | header_5 | data_5 |
| query_2 | TRUE | FALSE | title_2 | summary_2 | header_1 | data_1 |
| query_2 | TRUE | FALSE | title_2 | summary_2 | header_2 | data_2 |
| query_2 | TRUE | FALSE | title_2 | summary_2 | header_3 | data_3 |
| query_2 | TRUE | FALSE | title_2 | summary_2 | header_4 | data_4 |
+---------+------------+---------------+---------+-----------+----------------+--------------+
Проблема с моимРешение заключается в том, что «title» и «summary» являются строковой переменной.Для 10000 запросов это не имеет большого значения.Я получаю примерно 200 000 строк.Но я просто думаю, теоретически, это лучший способ сохранить этот словарь для целей анализа данных.
Что если в будущем я использую 100 000 или 1 000 000 запросов?Как вы решите эту проблему?Будете ли вы использовать другую структуру данных с самого начала?и как ты будешь готов к анализу данных?