«Как получить корпус ClueWeb» меня очень смущает, может кто-нибудь мне помочь.
У меня есть папка indice, которая содержит следующие файлы:
[20160624.chk, data.lexicon.fsomapfile, data.meta.zdata, md5sums,
data.direct.bf, data.lexicon.fsomaphash, data.properties, qrels.docids,
data.document.fsarrayfile, data.lexicon.fsomapid, docno2id.dat,
data.inverted.bf, data.meta.idx, indexing-clue09B-collection.spec_dual.out.gz]
Я скачалgalago-3.12.tar.gz и tar, затем я правильно запускаю команду
./scripts/installlib.sh
.
По завершении я получаю следующие файлы и папки:
[BUILD, core, krovetz-stemmer, LICENSE, scripts, tupleflow, tupleflow-typebuilder,
contrib, eval, lib, packaging, README.md, snowball-stemmers, tupleflow-gridengine, utility]
Итак, в моей папке galago, что я должен запустить для получения корпуса clueweb?
Должно ли оно быть:
./core/target/appassembler/bin/galago xxxxx --outPaht=XXX --inputPath=my_clueweb_indice_path
или нет?(xxxxx означает некоторую команду после galago)
Например, я пытаюсь запустить:
./core/target/appassembler/bin/galago make-corpus --outPaht=XXX --inputPath=my_clueweb_indice_path
, но результат кажется неправильным.
И другой метод для получения cluewebкорпус использует Hadoop.Я скачал hadoop-2.9.2.tar.gz и правильно установил его в системе Linux.И кто-то сказал, что использование настроенного «pox.xml» с hadoop может напрямую получить корпус clueweb.Но я понятия не имею, что такое связь между pox.xml и hadoop.
Кто-нибудь может мне помочь с этим вопросом?