как справиться с неопределенным количеством предложений в разных случаях в пакете? - PullRequest
0 голосов
/ 24 сентября 2019

Я столкнулся с проблемой кодирования.В моем наборе данных экземпляр включает несколько предложений (разные суммы в разных экземплярах).Они не могут быть объединены, чтобы служить одним.Как я могу эффективно обрабатывать такие данные с помощью PyTorch?Или я должен обработать экземпляр один за другим?

1 Ответ

0 голосов
/ 25 сентября 2019

Это очень широкий вопрос.Однако я могу придумать два менее сложных решения.

  1. Используйте фиктивное предложение, чтобы дополнить экземпляры и замаскировать фиктивные предложения, изучая представления для экземпляра.
  2. Вы можете сгруппироватьэкземпляры на основе количества предложений для создания мини-пакетов, чтобы избежать заполнения.Однако, если это не так, по крайней мере, попытайтесь сгруппировать экземпляры, которые похожи по количеству предложений, чтобы минимизировать количество заполнения.

Вы можете изучить существующие реализации представлений обучающего документа, дляНапример, Иерархические сети внимания для документа по классификации документов .

...