Как получить корпус ClueWeb через Galago или Hadoop? - PullRequest
0 голосов
/ 09 декабря 2018

«Как получить корпус ClueWeb» меня очень смущает, может кто-нибудь мне помочь.

У меня есть папка indice, которая содержит следующие файлы:

[20160624.chk,               data.lexicon.fsomapfile,  data.meta.zdata,                               md5sums,
data.direct.bf,             data.lexicon.fsomaphash,  data.properties,                               qrels.docids,
data.document.fsarrayfile,  data.lexicon.fsomapid,    docno2id.dat,
data.inverted.bf,           data.meta.idx,            indexing-clue09B-collection.spec_dual.out.gz]

Я скачалgalago-3.12.tar.gz и tar, затем я правильно запускаю команду

./scripts/installlib.sh

.

По завершении я получаю следующие файлы и папки:

[BUILD,    core,  krovetz-stemmer,  LICENSE,    scripts,            tupleflow,             tupleflow-typebuilder,
contrib,  eval,  lib,              packaging,  README.md,  snowball-stemmers,  tupleflow-gridengine,  utility]

Итак, в моей папке galago, что я должен запустить для получения корпуса clueweb?

Должно ли оно быть:

./core/target/appassembler/bin/galago xxxxx --outPaht=XXX --inputPath=my_clueweb_indice_path

или нет?(xxxxx означает некоторую команду после galago)

Например, я пытаюсь запустить:

./core/target/appassembler/bin/galago make-corpus --outPaht=XXX --inputPath=my_clueweb_indice_path

, но результат кажется неправильным.

И другой метод для получения cluewebкорпус использует Hadoop.Я скачал hadoop-2.9.2.tar.gz и правильно установил его в системе Linux.И кто-то сказал, что использование настроенного «pox.xml» с hadoop может напрямую получить корпус clueweb.Но я понятия не имею, что такое связь между pox.xml и hadoop.

Кто-нибудь может мне помочь с этим вопросом?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...