Ошибка при импорте файла CSV в Amazon Personalize - PullRequest
1 голос
/ 17 октября 2019

Я пытаюсь импортировать файл CSV в Amazon Personalize

моя схема выглядит следующим образом:

{
  "type": "record",
  "name": "Items",
  "namespace": "com.amazonaws.personalize.schema",
  "fields": [
      {
          "name": "ITEM_ID",
          "type": "string"
      },
      {
          "name": "AUTHOR",
          "type": "string",
          "categorical": true
      },
      {
          "name": "COUNTRY",
          "type": "string",
          "categorical": true
      },
      {
          "name": "CITY",
          "type": "string",
          "categorical": true
      },
      {
          "name": "STYLES",
          "type": "string",
          "categorical": true
      },
      {
          "name": "CATEGORIES",
          "type": "string",
          "categorical": true
      }
  ],
  "version": "1.0"
}

первые несколько строк данных выглядят так:

ITEM_ID,AUTHOR,COUNTRY,CITY,STYLES,CATEGORIES
5b4253a7e12434f55875381e,5acd193f48ed4b9b3add5be6,US,city_us_austin,5ad45bc575eb016f3cdb562b|571aa21888a4fd9934f0fd7b|571aa21888a4fd9934f0fd79|5ad45e8c75eb016f3cdb563f|5b4ea35abaa12285687a1f47,593a866a082c26444eab2d3c|5a8e4820fc112d414fbc1be3
5b4253a7e12434f55875381f,5acd193f48ed4b9b3add5be6,US,city_us_jackson,571aa21888a4fd9934f0fd82|57600e419e4959cd069658eb|5ad45c3a75eb016f3cdb5631|571aa21888a4fd9934f0fd7b|57aaa7094a393f531ace43f0|575e6d8e34ca56f742bea1c8|571aa21888a4fd9934f0fd8f,593a866a082c26444eab2d3c|5a8e4820fc112d414fbc1be3

Я получаю ошибку

Failed to create a data import job for item dataset.
Input csv has rows that do not conform to the dataset schema. Please ensure all required data fields are present and that they are of the type specified in the schema.

Как я могу выяснить, что не так с CSV (это тысячи строк), поэтому я не представляю, является ли это общей ошибкой или чем-то неправильнымна конкретной строке?

1 Ответ

1 голос
/ 18 октября 2019

По моему опыту, до тех пор, пока набор данных не> 250 тысяч записей, вы все равно можете использовать Excel для проверки данных с использованием фильтров данных и соответствующих функций поиска. Если это больше, посмотрите на использование Notepad ++ и RegEx. Ваша проблема может быть одной из следующих вещей:

(1) Отсутствует запятая. Это приведет к неправильному выравниванию ваших данных и предотвратит их обработку.
(2) Отсутствует значение ITEM_ID. Для элементов Personalize требуется ITEM_ID и хотя бы одно поле метаданных. Эта ошибка может появиться, если есть экземпляр, в котором вы пропустили ITEM_ID или у вас есть ITEM_ID, но нет других значений поля метаданных.
(3) STYLES и / или CATEGORIES превышают 256 символов. Вероятно, существует ограничение на длину строки, но я не могу получить четкий ответ на этот вопрос из руководства разработчика. Я предполагаю, что это 256 символов. Если бы я ставил деньги, это было бы моим предположением о вашей проблеме.

...