Rapidminer - Разделение строк, значения которых имеют неверный тип - PullRequest
0 голосов
/ 28 апреля 2018

У меня был набор данных из 8 миллионов строк в текстовом файле с форматом табуляции без кавычек. У меня было 5 из 14 столбцов со значениями даты в формате dd.MM.yyyy.

Задача 1 Я пытаюсь импортировать файл. На шаге «Форматировать ваши столбцы», если я выберу тип столбцов в качестве «даты», он выдаст ошибки, и все ячейки в столбцах получат «?»

Итак, я выбрал «полином» и планировал преобразовать тип атрибута в дату позже.

Задача 2 (настоящая) Я импортировал данные и поставил «номинальный на сегодняшний день» оператор. При запуске я получаю сообщение об ошибке в строке 14.899:

Cannot parse date: Unparseable date: "0"

Я нахожу строку и вижу, что столбцы разделены неправильно. В предыдущей ячейке был символ табуляции в строке. Таким образом, значения переместились на одну ячейку вправо. И этот ряд был не единственным, который сдвинулся.

Я хочу разделить строки, значения которых имеют неправильный тип данных для атрибутов spesified. Поэтому я не могу исправить их вручную.

Как я могу это сделать в Rapidminer?

Или какие-то другие идеи, чтобы решить эти проблемы?

Ответы [ 2 ]

0 голосов
/ 07 мая 2018

, поэтому, скорее всего, вам нужно настроить форматирование даты в этом выпадающем меню:

enter image description here

Если честно, я обычно просто импортирую как полином, а затем конвертирую в дату в моем процессе. Это проще и воспроизводимо.

0 голосов
/ 29 апреля 2018

У вас поврежденный входной файл.

Лучшее решение, очевидно, состоит в том, чтобы исправить процесс, который генерирует данные. Очистите или замените символы табуляции и отформатируйте дату в однозначном формате, например в формате даты ISO.

Предполагая, что вы не можете исправить дату, вы, вероятно, должны написать надежный парсер программу самостоятельно. Универсальный парсер, такой как rapidminer, не сможет исправить все проблемы.

...