Я буду предполагать, что в этом ответе вы используете RNN Keras или TensorFlow, но на самом деле применимы и любые другие инструменты.
Первое, что нужно упомянуть, это то, что вы не всегда вынуждены выбиратьдлина одной последовательности.Определив соответствующий размер временного шага входной формы в вашей нейронной сети как None
, вы можете иметь различную длину последовательности между различными пакетами.Единственное ограничение заключается в том, что длина последовательности в пределах одного пакета должна быть эквивалентной, и это из-за предопределенного свойства формы Tensors.Следовательно, вы можете подавать партии нейронных последовательностей, скажем, 50, 100 и 150 последовательностей и видеть, как она работает.
Однако часто предпочтительнее задавать одну длину последовательности, поскольку она более интуитивна и прощеработать с.Вы можете просто обучать различные модели, в которых единственной изменяющейся переменной является длина последовательности, и сравнивать их точность проверки.Разные задачи будут иметь разную оптимальную длину последовательности: анализ настроений может выполняться с более короткими длинами последовательностей, тогда как языковые модели обычно выполняются с более длинными длинами последовательностей.Безопасным подходом было бы взять медиана длина последовательности вашего набора данных.
Возможно, более безопасный подход заключается в том, чтобы либо взять максимальную длину последовательности, либо длину последовательностиэто не приводит к усечению большого количества предложений.Однако это зависит от вашей архитектуры.Этот подход потенциально будет работать лучше с такой концепцией, как Сверточные RNN (Kim et. Al., 2014), где мы используем скользящие окна для перехода по последовательности за короткие временные шаги (3, 5 и т. Д.), Какмы бы к изображению с CNN.Другим потенциальным направлением является механизм локального внимания (Luong et. Al., 2015), который адаптивно фокусируется на отдельном подмножестве скрытых состояний, полученных из входных последовательностей.С другой стороны, длина последовательности, очевидно, является параметром для эксперимента, и у нас не может быть определенного ответа.