Я пытаюсь использовать torchtext для маркировки последовательности, где последовательности являются предложениями. Таким образом, каждый Example
представляет собой список предложений и их тегов:
[
{
'texts': ["An example.", "It's the data.", "I'm talking about it."],
'labels': [0,2,0]
},
{ 'texts': ["This is another example", "This is also data."],
'labels': [0,1]
}
]
Конечно, я все еще хочу токенизацию и словарный запас на уровне слов, но
Кажется, нет очевидного способа сделать это. Например, TabularDataset
ожидает список Field
s, которые применяются к элементу каждого примера, но я хочу сопоставить текстовое поле со списком предложений, составляющих вход.
Я подумал, что, может быть, именно для этого NestedField
, но, похоже, он специально предназначен для встраивания персонажей.
Я что-то упустил? Возможно ли это (без особых проблем) с torchtext? Я совершенно готов принять нет в качестве ответа:)