использование torchtext с последовательностями текста в качестве ввода - PullRequest
0 голосов
/ 27 апреля 2019

Я пытаюсь использовать torchtext для маркировки последовательности, где последовательности являются предложениями. Таким образом, каждый Example представляет собой список предложений и их тегов:

[ 
  {
    'texts': ["An example.", "It's the data.", "I'm talking about it."],
    'labels': [0,2,0]
  },
  { 'texts': ["This is another example", "This is also data."],
    'labels': [0,1]
  }
] 

Конечно, я все еще хочу токенизацию и словарный запас на уровне слов, но Кажется, нет очевидного способа сделать это. Например, TabularDataset ожидает список Field s, которые применяются к элементу каждого примера, но я хочу сопоставить текстовое поле со списком предложений, составляющих вход.

Я подумал, что, может быть, именно для этого NestedField, но, похоже, он специально предназначен для встраивания персонажей.

Я что-то упустил? Возможно ли это (без особых проблем) с torchtext? Я совершенно готов принять нет в качестве ответа:)

...