Обучающая модель фигуры на большом корпусе в формате tsv - PullRequest
0 голосов
/ 10 марта 2020

Я бы хотел обучить модель предложения на MSMARCO корпус. Формат корпуса - docid <tab> URL <tab> Query <tab> Document. Теперь настоящие предложения в моем корпусном файле - это строки запросов и документов. Можно ли итеративно обучать модель фрагмента предложения по строкам (запросам / документам) по очереди? Я пытался тренировать свою модель напрямую, используя

spm_train --input=msmarco-docs.tsv --model_prefix=ir_model --vocab_size=30000 --character_coverage=1.0

Моя модель начинает тренироваться, но в начале я получаю следующие предупреждения.

trainer_interface.cc(267) LOG(INFO) Loading corpus: msmarco-docs.tsv
trainer_interface.cc(287) LOG(WARNING) Found too long line (6120 > 4192).
trainer_interface.cc(289) LOG(WARNING) Too long lines are skipped in the training.
trainer_interface.cc(290) LOG(WARNING) The maximum length can be changed with --max_sentence_length=<size> flag.

Теперь, как определено в предупреждении, обучение таким образом пропускает некоторые длинные строки. Я предполагаю, что этот метод пропустит большинство моих документов, так как все они представлены одной строкой в ​​наборе данных MSMARCO. Я не хочу, чтобы мои документы пропускали. У кого-нибудь есть лучшее решение здесь? Набор данных MS-MARCO - это огромный набор пар пар запрос-документ размером 22 гигабайта. Кто-нибудь имеет представление о том, сколько времени потребуется для обучения модели на этом огромном наборе данных на ноутбуке Intel i5 8-го поколения с 8 ГБ памяти? Заранее спасибо :)

...