Я хочу использовать структуру научного проекта Cookiecutter Data для моего проекта.Я нашел http://drivendata.github.io/cookiecutter-data-science/, и он выглядит великолепно.
Я анализирую различия в каталогах по их структуре, и у меня есть некоторые вопросы, связанные с различными этапами данных.В README.md
файле установите разницу между внешними, промежуточными, обработанными и необработанными данными.
├── data
│ ├── external <- Data from third party sources.
│ ├── interim <- Intermediate data that has been transformed.
│ ├── processed <- The final, canonical data sets for modeling.
│ └── raw <- The original, immutable data dump.
Я работаю над проектом, в котором данные получены с датчиков иуправляется через инструментальную панель веб-приложения.Кроме того, я выполняю некоторые JOINS для дампа базы данных SQL, чтобы извлечь другие данные, с которыми мне нужно начать работать.
В чем разница между необработанными данными и внешними данными?Данные, которые я описываю выше в процессе извлечения, или как мне заставить их сделать так, чтобы они каталогизировались как необработанные данные?
Почему они не рассматриваются как внешние данные?
Они будут считаться внешними данными, получу ли я их из других источников, отличных от моей организации, которая владеет администрированием данных датчиков и панели мониторинга веб-приложения?
О необработанных данных Они особенно подходят для:
Никогда не редактируйте необработанные данные, особенно вручную, особенно в Excel.Не перезаписывайте ваши необработанные данные.Не сохраняйте несколько версий исходных данных.Обрабатывайте данные (и их формат) как неизменные.Код, который вы пишете, должен перемещать необработанные данные по конвейеру к вашему окончательному анализу
Я понимаю это, и это лучшая практика:)
Чтобы проиллюстрировать мой вопрос, я хочучтобы выбрать несколько индексов из одного образца набора данных, с которым я работаю:
Я прочитал некоторый необработанный набор данных, который я извлекаю с помощью объединений SQL. Данные изменены
Тогда это мои необработанные данные:
# I read some raw dataset
data = pd.read_csv('fruit-RawData.csv')
data.head()
weight date number lat lng farmName
0 3.09 2012-07-27 07:08:58 15 57.766231 -16.762676 Totti
1 1.50 2012-07-27 07:09:01 15 57.766231 -16.762676 Totti
2 10.50 2012-07-27 07:09:02 15 57.766231 -16.762676 Totti
3 2.50 2012-07-27 07:09:04 15 57.766231 -16.762676 Totti
4 6.50 2012-07-27 07:09:06 15 57.766231 -16.762676 Totti
Если я выберу только вес, дату и число ...
data = data[['weight','date','number']]
data.to_csv('fruits.csv', sep=',', header=True, index=False)
И я получаю:
weight date number
0 23.09 2012-07-27 07:08:58 5
1 30.50 2012-07-27 07:08:58 5
2 19.50 2012-07-27 07:08:58 5
3 25.50 2012-07-27 07:08:58 5
4 26.50 2012-07-27 07:08:58 5
Эти подмножества данных могут рассматриваться как промежуточные данные, которые были преобразованы, или все еще являются необработанными данными?
Я не знаю, если эти вопросыдействительный.