Загрузите простой текстовый файл в PyTorch - PullRequest
0 голосов
/ 18 марта 2019

У меня есть два отдельных файла, один из которых представляет собой текстовый файл, каждая строка которого представляет собой один текст. Другой файл содержит метку класса соответствующей строки. Как мне загрузить это в PyTorch и выполнить дальнейшую токенизацию, встраивание и т. Д.?

1 Ответ

1 голос
/ 18 марта 2019

Что вы уже пробовали?То, что вы описали, по-прежнему не очень связано с PyTorch, вы можете создать сценарий предварительной обработки, который загружает все предложения в одну структурированную информацию, например: список (текст, метка) кортежа. Вы также можете разделить свои данные на обучение иЗадержка устанавливается на этом этапе.Затем вы можете выгрузить все это в файлы .csv.

Затем, один из способов сделать это в 3 шага:

  • Реализация класса Набор данных - дляэффективно загружать ваши данные, читая созданные файлы .csv;
  • Имеется другой, например, Словарь , который поддерживает сопоставление токенов с идентификаторами и наоборот;
  • Что-то вроде Векторизатор , который преобразует ваши предложения в векторы, либо в горячее, либо вложение;

Затем вы можете использовать это для создания векторного представления ваших предложений и передачи его внейронная сеть.

Загляните в этот блокнот, чтобы понять все это более подробно:

...