TSV как вход для мудреца - PullRequest
       3

TSV как вход для мудреца

0 голосов
/ 30 января 2020

Есть ли способ использовать tsv вместо csv в качестве входных данных для автопилота sagemaker?

В настоящее время я ввожу данные в таком виде:

input_data_config = [{
      'DataSource': {
        'S3DataSource': {
          'S3DataType': 'S3Prefix',
          'S3Uri': 's3://{}/{}/train'.format(bucket,prefix)
        }
      },
      'TargetAttributeName': 'sentiment'
    }
  ]

это похоже на рабочий файл для файлов .csv, но не работает для моих файлов .tsv.

1 Ответ

1 голос
/ 04 февраля 2020

Я разработчик в AWS SageMaker. Автопилот в настоящее время поддерживает только данные CSV. Хотя мы работаем над расширением поддержки для других форматов файлов: JSON, TSV и т. Д. c, возможно, вы можете попытаться преобразовать файл .tsv в .csv:

import csv

# read tab-delimited file
with open('yourfile.tsv','rb') as fin:
    cr = csv.reader(fin, delimiter='\t')
    filecontents = [line for line in cr]

# write comma-delimited file (comma is the default delimiter)
with open('yourfile.csv','wb') as fou:
    cw = csv.writer(fou, quotechar='', quoting=csv.QUOTE_NONE)
    cw.writerows(filecontents)
* 1003. * Надеюсь, это поможет.

Ссылка: Как преобразовать файл с разделителями табуляции в формат CSV?

...