Как отфильтровать дамп Wikidata для языка?

Я скачал правдивый дамп Wikidata в формате RDF (файл .nt.bz2). Я хочу ограничить язык дампа только английским и создать этот новый отфильтрованный дамп как новый файл .nt.

Я пытался использовать параллельный grep для фильтрации строк с текстом '@en', но это отнимает много времени.

Есть ли какой-нибудь гораздо более быстрый способ создания отфильтрованных дампов? Что-то вроде использования Spark?

Как отфильтровать дамп Wikidata для языка?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как отфильтровать дамп Wikidata для языка?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы