Документация Watson Language Translator гласит:
"Файл TMX с параллельными предложениями для исходного и целевого языков. Вы можете загрузить несколько файлов parallel_corpus за один запрос. Все загруженные файлы parallel_corpus объединены, ваш параллельный корпус должен содержать не менее 5000 параллельных предложений для успешного обучения."
У меня есть несколько корпоративных файлов, которые я бы использовал для обучения моей модели перевода. Я искал возможные способы сделать это программно, но безуспешно.
Единственный способ сделать это - объединить их вручную в один файл.
Есть ли способ отправить несколько файлов в виде параллельного корпуса через API?
Можете ли вы привести примеры на Python или Curl?
Спасибо.
Единственное, что сработало, это объединение файлов .TMX вручную и отправка только одного файла. Я не нашел способа отправить несколько файлов с именем parallel_corpora
with open("./training/my_corpus_SPA.TMX", "rb") as parallel:
custom_model = language_translation.create_model(
base_model_id = 'en-es',
name = 'en-es-base1xx',
#forced_glossary = glossary,
parallel_corpus = parallel).get_result()
print(json.dumps(custom_model, indent=2))