Я пытаюсь сделать некоторое извлечение отношений в дампе Википедии.
Для этого мне нужно искать шаблоны в ОЧЕНЬ большом файле XML / JSON (15 ГБ сжатых, 50 ГБ несжатых)).
Каков наилучший способ сделать это?Обычные алгоритмы сопоставления строк?Используете ElasticSearch-подобные технологии?Если да, то как?