Поиск шаблона в дампе Википедии - PullRequest
0 голосов
/ 05 июня 2018

Я пытаюсь сделать некоторое извлечение отношений в дампе Википедии.

Для этого мне нужно искать шаблоны в ОЧЕНЬ большом файле XML / JSON (15 ГБ сжатых, 50 ГБ несжатых)).

Каков наилучший способ сделать это?Обычные алгоритмы сопоставления строк?Используете ElasticSearch-подобные технологии?Если да, то как?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...