Файл ttl разделен на структурированный обучающий набор и набор тестов в python - PullRequest
0 голосов
/ 17 февраля 2020

У меня есть несколько файлов ttl, и я хочу разделить их на этот формат:

Для обучения наборы данных содержат три файла:

train2id.txt: файл обучения, первая строка - это количество троек за тренировку. Затем все следующие строки имеют формат (e1, e2, rel), который указывает, что существует отношение rel между e1 и e2. Обратите внимание, что train2id.txt содержит идентификаторы из liciy2id.txt и relations2id.txt вместо имен сущностей и отношений. Если вы используете свои собственные наборы данных, пожалуйста, проверьте формат вашего учебного файла. Файлы в неправильном формате могут вызвать ошибку сегментации.

entity2id.txt: все сущности и соответствующие идентификаторы, по одному на строку. Первая строка - это число сущностей.

ratio2id.txt: все отношения и соответствующие идентификаторы, по одному на строку. Первая строка - это число отношений.

Для тестирования наборы данных содержат дополнительные два файла (всего пять файлов):

test2id.txt: файл тестирования, первая строка - количество троек для тестирования. Затем все следующие строки имеют формат (e1, e2, rel).

valid2id.txt: проверочный файл, первая строка - это число троек для проверки. Тогда все следующие строки имеют формат (e1, e2, rel).

...