У меня есть несколько файлов ttl, и я хочу разделить их на этот формат:
Для обучения наборы данных содержат три файла:
train2id.txt: файл обучения, первая строка - это количество троек за тренировку. Затем все следующие строки имеют формат (e1, e2, rel), который указывает, что существует отношение rel между e1 и e2. Обратите внимание, что train2id.txt содержит идентификаторы из liciy2id.txt и relations2id.txt вместо имен сущностей и отношений. Если вы используете свои собственные наборы данных, пожалуйста, проверьте формат вашего учебного файла. Файлы в неправильном формате могут вызвать ошибку сегментации.
entity2id.txt: все сущности и соответствующие идентификаторы, по одному на строку. Первая строка - это число сущностей.
ratio2id.txt: все отношения и соответствующие идентификаторы, по одному на строку. Первая строка - это число отношений.
Для тестирования наборы данных содержат дополнительные два файла (всего пять файлов):
test2id.txt: файл тестирования, первая строка - количество троек для тестирования. Затем все следующие строки имеют формат (e1, e2, rel).
valid2id.txt: проверочный файл, первая строка - это число троек для проверки. Тогда все следующие строки имеют формат (e1, e2, rel).