как я могу получить набор данных Freebase Easy в виде одного структурированного файла? - PullRequest
0 голосов
/ 21 апреля 2020

Я скачал набор данных Freebase Easy (3,3 ГБ). Я хочу исследовать этот набор данных при наборе некоторых объектов. например: немецкий (вводится в базе: местоположение, страна, земля .....). enter image description here

Как мне связать эти три файла с полным набором данных?

1 Ответ

0 голосов
/ 22 апреля 2020

Файлы (facts.txt freebase-links.txt scores.txt) имеют одинаковый формат, поэтому их можно просто объединить. В Unix -подобной системе вы можете использовать команду:

cat facts.txt freebase-links.txt scores.txt > all.txt

или вы можете сжать все, выполнив что-то вроде

unzip -ca freebase-easy-latest.zip \*.txt | gzip > freebase-easy-all.txt.gz

пример записи будет выглядеть как

$ unzip -ca freebase-easy-latest.zip \*.txt | grep $"^B\t" 
B   prominence-score    1758.0  .
B   freebase-entity <http://rdf.freebase.com/ns/m.0560cf>   .
B   Transit System  New York City Subway    .
B   is-a    Topic   .
B   is-a    Transit Line    .
B   kg/object_profile/prominent_type    Transit Line    .

где первая строка от scores.txt, вторая строка от freebase-links.txt и остаток от facts.txt.

...