Как использовать несколько корпусных файлов для использования в качестве параллельных корпусов в Watson Language Translator в Python - PullRequest
3 голосов
/ 28 мая 2019

Документация Watson Language Translator гласит:

"Файл TMX с параллельными предложениями для исходного и целевого языков. Вы можете загрузить несколько файлов parallel_corpus за один запрос. Все загруженные файлы parallel_corpus объединены, ваш параллельный корпус должен содержать не менее 5000 параллельных предложений для успешного обучения."

У меня есть несколько корпоративных файлов, которые я бы использовал для обучения моей модели перевода. Я искал возможные способы сделать это программно, но безуспешно.

Единственный способ сделать это - объединить их вручную в один файл.

Есть ли способ отправить несколько файлов в виде параллельного корпуса через API?

Можете ли вы привести примеры на Python или Curl?

Спасибо.

Единственное, что сработало, это объединение файлов .TMX вручную и отправка только одного файла. Я не нашел способа отправить несколько файлов с именем parallel_corpora

with open("./training/my_corpus_SPA.TMX", "rb") as parallel:
custom_model = language_translation.create_model(
base_model_id = 'en-es',
name = 'en-es-base1xx',
#forced_glossary = glossary,
parallel_corpus = parallel).get_result()
print(json.dumps(custom_model, indent=2))

1 Ответ

0 голосов
/ 23 июля 2019

Я думаю, что нашел решение в здесь

Я попробовал это, и, кажется, работает:

с open(corpus_fname1, 'rb') как parallel1, open(corpus_fname2, 'rb') как parallel2:

 custom_model = language_translation.create_model(
     base_model_id = base_model_es_en,
     name = model01_name,
     parallel_corpus = parallel1,
     parallel_corpus_filename2 = parallel2,
     forced_glossary=None).get_result()
...