Я скачал правдивый дамп Wikidata в формате RDF (файл .nt.bz2). Я хочу ограничить язык дампа только английским и создать этот новый отфильтрованный дамп как новый файл .nt.
Я пытался использовать параллельный grep для фильтрации строк с текстом '@en', но это отнимает много времени.
Есть ли какой-нибудь гораздо более быстрый способ создания отфильтрованных дампов? Что-то вроде использования Spark?