Можно ли увидеть прочитанные данные файла pytorchtext.data.Tabulardataset? - PullRequest
0 голосов
/ 05 июля 2018
train, test = data.TabularDataset.splits(path="./data/", train="train.csv",test="test.csv",format="csv",fields=[("Tweet",TEXT), ("Affect Dimension",LABEL)])

У меня есть этот код, и я хочу оценить, правильны ли загруженные данные или используются неправильные столбцы для фактических текстовых полей и т. Д.

Если в моем файле есть столбцы «Tweet» для текстов и «Affect Dimension» для имени класса, правильно ли указывать их так, как это в разделе полей?

Редактировать: TabularDataset включает объект-пример, в котором данные могут быть прочитаны. При чтении CSV-файлов в качестве разделителя принимается только «,». Все остальное приведет к повреждению данных.

1 Ответ

0 голосов
/ 09 октября 2018

Вы можете поставить любое имя поля независимо от того, что имеет ваш файл. Также я рекомендую НЕ использовать пробелы в именах полей.

Итак, переименуйте Affect Dimension в Affect_Dimension или что-нибудь удобное для вас.

Затем вы можете перебирать различные поля, как показано ниже, для проверки прочитанных данных.

for i in train.Tweet:
    print i
for i in train.Affect_Dimension:
    print i

for i in test.Tweet:
    print i
for i in test.Affect_Dimension:
    print i
...