Я считаю, что все действия происходят в строке перед той, которую вы цитировали:
wp.create_training_and_desc(wp_xml, entity_defs_path, entity_descr_path,
training_entities_path, descr_from_wp, limit_train)
(это [https://github.com/explosion/spaCy/blob/master/bin/wiki_entity_linking/wikidata_pretrain_kb.py#L142] )
Эта функция это один файл, в https://github.com/explosion/spaCy/blob/master/bin/wiki_entity_linking/wikipedia_processor.py#L176:
def create_training_and_desc(
wp_input, def_input, desc_output, training_output, parse_desc, limit=None
):
wp_to_id = io.read_title_to_id(def_input)
_process_wikipedia_texts(
wp_input, wp_to_id, desc_output, training_output, parse_desc, limit
)
При этом, пройдя этот процесс несколько дней go, у меня сложилось впечатление, что это все в потоке и может быть некоторое несоответствие между описаниями, реальным кодом и версиями пространства. Возможно, вы заметили, что Readme начинается с инструкции «Run wikipedia_pretrain_kb.py». И, тем не менее, такого файла не существует, только wikidata_pretrain_kb.py.
Пока процесс работал (виртуально), окончательная тренировка выполняется с ледяной скоростью 10 секунд на каждый пример. Для 300 000 примеров в обучающем наборе это означало бы около года обучения в 10 эпохах по умолчанию.
Существуют некоторые инструкции, которые предполагают, что один не предназначен для запуска все обучения данные, которые доступны. Но в этом случае кажется странным запускать 10 эпох на повторяющемся наборе данных с уменьшающейся доходностью.