Никогда не работал со структурой данных этот грязный - PullRequest
0 голосов
/ 26 июня 2018

У меня есть этот файл для работы (и 7000 других в том же формате), который очень грязный и не аккуратный в любом случае.Я читал о приведении в порядок данных с помощью Pandas, но чувствую, что на этом этапе я вращаю свои колеса ...

Вот необработанные данные, просматриваемые в Excel:

enter image description here

Вот пример текста из CSV:

Раздел 6. Сводка резерва
Требование к резерву за десять минут:, 1801
Оценка десятиминутного резерва :, 1801
Требование тридцатиминутного резерва :, 626
Оценка резерва тридцати минут :, 1926
Ожидаемые действия OP 4 :, 0
Дополнительная емкость, доступная изОперации OP 4: 0
Раздел 7. Сводная информация об обмене
Описание, Лимит импорта MW, Лимит экспорта MW, Запланированный, Контракт
Highgate, -225, 0, -225
NB, -550,200, -432
NYISO AC, -1400, 1200, 0
NYISO CSC, -346, 330, 330 NYISO NNC, -200, 200, 194 Phase 2 -2000 1200 -1501
Раздел 8.Сводка прогноза погоды для пикового часа
Город, условия, ветер, высокая температура (F)
Бостон, переменная облачность, NE-10, 66
Hartford, Mostly Clear, N-12, 77

Вы видите, что колонка А бесполезна, поэтому я могу удалить.Столбец B в основном содержит имена переменных, но также имеет имена разделов (строки 7, 9, 11 ...).Иногда столбец B имеет значение, но большую часть времени значение указывается в столбце C - также иногда в столбце D. Строки 44-54 имеют дополнительное форматирование, где есть таблица имен и значений переменных...

В любом случае, у меня совершенно нет навыков, чтобы превратить это в аккуратный информационный фрейм, и мне нужно будет передать это кому-то другому.Тем не менее, я надеюсь, что любой может дать совет о том, что делать.Это даже называется «очистка данных» или «структурирование данных»?

Я отбросил столбец А, затем транспонировал данные, но это далеко от правильной настройки этого фрейма данных.Какие другие методы для перемещения данных в нужную структуру необходимы?

Любые ресурсы будут великолепны!Я слишком долго искал «аккуратные данные», «очистку данных», «структурирование данных», но все они были слишком упрощенными по сравнению с этим приложением.

...