Question

У меня есть два отдельных файла, один из которых представляет собой текстовый файл, каждая строка которого представляет собой один текст. Другой файл содержит метку класса соответствующей строки. Как мне загрузить это в PyTorch и выполнить дальнейшую токенизацию, встраивание и т. Д.?

David Batista · Answer 1 · 18 марта 2019

Что вы уже пробовали?То, что вы описали, по-прежнему не очень связано с PyTorch, вы можете создать сценарий предварительной обработки, который загружает все предложения в одну структурированную информацию, например: список (текст, метка) кортежа. Вы также можете разделить свои данные на обучение иЗадержка устанавливается на этом этапе.Затем вы можете выгрузить все это в файлы .csv.

Затем, один из способов сделать это в 3 шага:

Реализация класса Набор данных - дляэффективно загружать ваши данные, читая созданные файлы .csv;
Имеется другой, например, Словарь , который поддерживает сопоставление токенов с идентификаторами и наоборот;
Что-то вроде Векторизатор , который преобразует ваши предложения в векторы, либо в горячее, либо вложение;

Затем вы можете использовать это для создания векторного представления ваших предложений и передачи его внейронная сеть.

Загляните в этот блокнот, чтобы понять все это более подробно:

Классификация настроений

Загрузите простой текстовый файл в PyTorch

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Загрузите простой текстовый файл в PyTorch

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы