Как отфильтровать дамп Wikidata для языка? - PullRequest
0 голосов
/ 08 июня 2019

Я скачал правдивый дамп Wikidata в формате RDF (файл .nt.bz2). Я хочу ограничить язык дампа только английским и создать этот новый отфильтрованный дамп как новый файл .nt.

Я пытался использовать параллельный grep для фильтрации строк с текстом '@en', но это отнимает много времени.

Есть ли какой-нибудь гораздо более быстрый способ создания отфильтрованных дампов? Что-то вроде использования Spark?

...