У меня был набор данных из 8 миллионов строк в текстовом файле с форматом табуляции без кавычек.
У меня было 5 из 14 столбцов со значениями даты в формате dd.MM.yyyy.
Задача 1
Я пытаюсь импортировать файл. На шаге «Форматировать ваши столбцы», если я выберу тип столбцов в качестве «даты», он выдаст ошибки, и все ячейки в столбцах получат «?»
Итак, я выбрал «полином» и планировал преобразовать тип атрибута в дату позже.
Задача 2 (настоящая)
Я импортировал данные и поставил «номинальный на сегодняшний день» оператор. При запуске я получаю сообщение об ошибке в строке 14.899:
Cannot parse date: Unparseable date: "0"
Я нахожу строку и вижу, что столбцы разделены неправильно. В предыдущей ячейке был символ табуляции в строке. Таким образом, значения переместились на одну ячейку вправо. И этот ряд был не единственным, который сдвинулся.
Я хочу разделить строки, значения которых имеют неправильный тип данных для атрибутов spesified. Поэтому я не могу исправить их вручную.
Как я могу это сделать в Rapidminer?
Или какие-то другие идеи, чтобы решить эти проблемы?