У меня есть несжатый дамп из Википедии ~ 75 ГБ (сжатый: ~ 16 ГБ). Я попытался использовать что-то вроде
from xml.etree.ElementTree import iterparse
for event, elem in iterparse('enwiki-latest-pages-articles-multistream.xml'):
if elem.tag == "___":
#do something
elem.clear()
Ядро в конечном итоге умирает в Jupyter Notebook через некоторое время. Дело в том, что я не хочу, чтобы все данные в этом дампе (предположительно ~ 1000M строк) - я хочу отфильтровать их только для нескольких объектов. Но чтобы сделать это, я должен был прочитать это сначала правильно? Это, по-видимому, то, что заставляет ядро d ie. Я просто хотел очень маленькое его подмножество и хотел посмотреть, есть ли способ выполнить sh эту фильтрацию в Jupyter, такую как большой XML файл.