Пользовательский переводчик - настройка модели после обучения - PullRequest
1 голос
/ 10 апреля 2020

Я использовал три файла параллельных предложений для обучения моей пользовательской модели переводчика. Нет словарных файлов и файлов настроек тоже. После того, как обучение закончено и я проверил результаты теста, я хочу внести некоторые коррективы в модель. И вот несколько вопросов:

  1. Можно ли настроить модель после тренировки? Я прав, что модель нельзя изменить, и единственный способ - обучить новую модель?
  2. Лучший подход к настройке модели - использовать файлы настройки. Это правильно?
  3. Нет способа увидеть автоматически сгенерированный файл настройки, поэтому я должен предоставить свой собственный файл настройки для более управляемого процесса настройки. Это так?
  4. Не могли бы вы описать, как создается файл настройки, когда у меня есть 3 файла предложений с разным количеством предложений, а именно: 55k, 24k и 58k строк. Все тюнинговые предложения взяты из первого файла или из всех трех файлов пропорционально их размеру? Какой лог c используется?

1 Ответ

0 голосов
/ 15 апреля 2020

У меня sh было больше авторитетных ответов на этот вопрос, я поделюсь тем, что знаю как соратник.

То, что Microsoft Custom Translator называет " данные настройки ", это что обычно называется проверочным набором . Это просто способ избежать переоснащения.

  1. Можно ли настроить модель после тренировки? Прав ли я, что модель нельзя изменить, и единственный способ - обучить новую модель?

Да, с помощью Microsoft Custom Translator вы можете обучать модель только на основе c Категория, которую вы выбрали для проекта.

(Технически с помощью Google AutoML вы можете обучать новую модель на основе одной из ваших предыдущих пользовательских моделей. Однако она также не может использоваться без некоторых ошибок и ошибок). .)

Лучший подход к настройке модели - использовать файлы настройки. Это правильно?

Трудно сделать абсолютное утверждение по этому поводу. Тренировочный набор также имеет эффект. Хороший набор проверок поверх плохого учебного набора не даст нам хороших результатов.

Нет способа увидеть автоматически сгенерированный файл настройки, поэтому я должен предоставить свой собственный файл настройки для более управляемого процесса настройки. Так ли это?

Да, мне кажется, что если вы позволите ему решить, как разделить тренировочный набор на тренировочный набор, набор настроек и набор тестов, вы можете только загрузить тренировочный набор и тестовый набор.

Возможно, ни один из них не включает в себя набор настроек, поэтому теоретически вы можете их различать. Но это не решает проблему различий между моделями.

... Какой логин c используется?

Хороший вопрос.

...