Как отформатировать файлы TSV для использования с torchtext? - PullRequest
0 голосов
/ 02 июля 2018

То, как я форматирую, выглядит так:

Jersei  N
atinge  V
média   N
. PU

Programe    V
...

Первая строка в каждой строке - лексический элемент, другая - тег pos. Но пустая строка (которую я использую для обозначения конца предложения) выдает мне ошибку AttributeError: 'Example' object has no attribute 'text' при запуске данного кода:

src = data.Field()
trg = data.Field(sequential=False)
mt_train = datasets.TabularDataset(
    path='/path/to/file.tsv',
    fields=(src, trg))
src.build_vocab(train)

Как правильно указать EOS для torchtext?

1 Ответ

0 голосов
/ 04 июля 2018

Следующий код читает TSV так, как я его отформатировал:

mt_train = datasets.SequenceTaggingDataset(path='/path/to/file.tsv',
                                           fields=(('text', text),
                                                   ('labels', labels)))

Бывает, что SequenceTaggingDataset правильно определяет пустую строку как разделитель предложений.

...