Я выполняю задачу классификации по нескольким меткам (4 метки), особенно текстовую классификацию. Я получаю 1000 текстов, и у каждого есть 50 слов и метки, в каждое слово вложено 100 измерений, и я использую Pytorch. У меня есть вопрос, каждый текст имеет различную длину, например, десять слов, пять слов или восемь слов. Сначала я встраиваю слова в 100-мерное измерение и знаю, что LSTM не зависит от длины последовательности. Таким образом, я могу справиться с каждым успехом txt, но как я могу иметь дело со многими txts одновременно ??
Когда я имею дело со многими txts, я просто дополняю txt до той же длины (20len), иЯ тренирую torch.nn.LSTM в batch_first, ввод (1000, 20, 100) и вывод (1000, 20, 100), и метки (1000), я использую crossEntropy ... Я знаю, что это неправильнотак как это сделать