О первоначальных исходных данных и промежуточных данных было преобразовано - PullRequest
0 голосов
/ 14 сентября 2018

Я хочу использовать структуру научного проекта Cookiecutter Data для моего проекта.Я нашел http://drivendata.github.io/cookiecutter-data-science/, и он выглядит великолепно.

Я анализирую различия в каталогах по их структуре, и у меня есть некоторые вопросы, связанные с различными этапами данных.В README.md файле установите разницу между внешними, промежуточными, обработанными и необработанными данными.

 ├── data
    │   ├── external       <- Data from third party sources.
    │   ├── interim        <- Intermediate data that has been transformed.
    │   ├── processed      <- The final, canonical data sets for modeling.
    │   └── raw            <- The original, immutable data dump.

Я работаю над проектом, в котором данные получены с датчиков иуправляется через инструментальную панель веб-приложения.Кроме того, я выполняю некоторые JOINS для дампа базы данных SQL, чтобы извлечь другие данные, с которыми мне нужно начать работать.

В чем разница между необработанными данными и внешними данными?Данные, которые я описываю выше в процессе извлечения, или как мне заставить их сделать так, чтобы они каталогизировались как необработанные данные?

Почему они не рассматриваются как внешние данные?

Они будут считаться внешними данными, получу ли я их из других источников, отличных от моей организации, которая владеет администрированием данных датчиков и панели мониторинга веб-приложения?

О необработанных данных Они особенно подходят для:

Никогда не редактируйте необработанные данные, особенно вручную, особенно в Excel.Не перезаписывайте ваши необработанные данные.Не сохраняйте несколько версий исходных данных.Обрабатывайте данные (и их формат) как неизменные.Код, который вы пишете, должен перемещать необработанные данные по конвейеру к вашему окончательному анализу

Я понимаю это, и это лучшая практика:)

Чтобы проиллюстрировать мой вопрос, я хочучтобы выбрать несколько индексов из одного образца набора данных, с которым я работаю:

Я прочитал некоторый необработанный набор данных, который я извлекаю с помощью объединений SQL. Данные изменены

Тогда это мои необработанные данные:

# I read some raw dataset
data = pd.read_csv('fruit-RawData.csv')
data.head()


    weight  date                number  lat      lng          farmName
0   3.09    2012-07-27 07:08:58     15   57.766231 -16.762676   Totti
1   1.50    2012-07-27 07:09:01     15  57.766231 -16.762676    Totti
2   10.50   2012-07-27 07:09:02     15  57.766231 -16.762676    Totti
3   2.50    2012-07-27 07:09:04     15  57.766231 -16.762676    Totti
4   6.50    2012-07-27 07:09:06     15  57.766231 -16.762676    Totti 

Если я выберу только вес, дату и число ...

data = data[['weight','date','number']]
data.to_csv('fruits.csv', sep=',', header=True, index=False)

И я получаю:

    weight  date               number
0   23.09   2012-07-27 07:08:58 5
1   30.50   2012-07-27 07:08:58 5
2   19.50   2012-07-27 07:08:58 5
3   25.50   2012-07-27 07:08:58 5
4   26.50   2012-07-27 07:08:58 5

Эти подмножества данных могут рассматриваться как промежуточные данные, которые были преобразованы, или все еще являются необработанными данными?

Я не знаю, если эти вопросыдействительный.

...