Что вы уже пробовали?То, что вы описали, по-прежнему не очень связано с PyTorch, вы можете создать сценарий предварительной обработки, который загружает все предложения в одну структурированную информацию, например: список (текст, метка) кортежа. Вы также можете разделить свои данные на обучение иЗадержка устанавливается на этом этапе.Затем вы можете выгрузить все это в файлы .csv.
Затем, один из способов сделать это в 3 шага:
- Реализация класса Набор данных - дляэффективно загружать ваши данные, читая созданные файлы .csv;
- Имеется другой, например, Словарь , который поддерживает сопоставление токенов с идентификаторами и наоборот;
- Что-то вроде Векторизатор , который преобразует ваши предложения в векторы, либо в горячее, либо вложение;
Затем вы можете использовать это для создания векторного представления ваших предложений и передачи его внейронная сеть.
Загляните в этот блокнот, чтобы понять все это более подробно: