Отзыв о проекте Data Science LSTM - PullRequest
0 голосов
/ 26 мая 2019

Я понимаю, что это немного выходит за рамки того, какие вопросы обычно задают здесь, поэтому, пожалуйста, прости это.Мне поручили провести технический отбор открытого типа для работы в качестве ученого по обработке данных.Это моя первая работа, которая попросила что-то подобное, поэтому я хочу убедиться, что я представляю действительно хорошую работу.Мне дали набор данных и попросили определить проблему и как использовать машинное обучение для ее решения, дать статистику по целевой функции, предварительно обработать данные, смоделировать данные и интерпретировать результаты.

Я ищу отзывы о том, что я упускаю что-то огромное в моих результатах.Обратная связь высокого уровня в порядке.Надеемся, что некоторые из вас являются специалистами по данным и должны были либо пройти такой технический отбор, либо пересмотреть его, и могут предложить ценный отзыв начинающему ученому.

Спасибо!

Github Ссылка на проект

Ответы [ 2 ]

1 голос
/ 26 мая 2019

Если бы я был оценщиком, я бы задавал такие вопросы, как,

1) В чем проблема исследования / бизнеса? Предложение: Начните отчет, четко указав вопрос

2) Какие существуют решения для решения проблемы? Предложение: Добавьте краткий обзор литературы о существующих решениях для похожих проблем и их результатах, предпочтительно в табличном формате.

3) Кратко рассмотрим описательные и многомерные свойства данных. Предложение: Добавить описательную и логическую статистику к данным, включая некоторые предварительные гипотезы, которые могут быть получены из переменных корреляций.

4) Почему вы выбрали именно этот подход для решения проблемы? Предложение: Дайте достоверное обоснование, подкрепленное количественными гипотетическими примерами решений, которые поддерживают предлагаемый подход.

5) Если это задача классификации, я бы задал вопрос типа «Какова базовая точность модели?» И если это задача кластеризации, "Какова базовая линия для чистоты кластера?" Предложение: найдите эту точность по распределению целевой переменной.

Наконец, вам нужно понять, почему задается такой открытый вопрос. Там может быть две возможности;

(a) Компания является новой со ссылкой на науку о данных и не уверена в том, что они ищут, то есть у них нет ни необходимого опыта для оценки навыков кандидата, либо они просто не уверены в том, что их требование , Если это так, то крайне важно, чтобы отчет был максимально простым и подробным. Держись подальше от метания жаргона.

ИЛИ

(b) компания имеет опыт работы с данными, и это тест на фильтрацию. Чтобы отфильтровать самопровозглашенные данные, разработанные специалистами по анализу данных, которые считают, что объединение некоторых готовых шагов решения (, таких как предварительная обработка, уменьшение размерности, моделирование ) решает проблему. Основная идея состоит в том, чтобы выяснить аналитические возможности кандидата.

Поэтому, напишите отчет с умом и убедитесь, что ничего не подделано.

Удачи.

1 голос
/ 26 мая 2019

посмотрите на

Mars Express Power Challenge Получите данные, смоделируйте и прогнозируйте тепловая мощность

здесь https://kelvins.esa.int/mars-express-power-challenge/

Задача состояла в том, чтобы получить данные и предсказать будущее потребление орбитального аппарата, чтобы спланировать, как экономить энергию (когда в солнечном поле существует риск перегрева, а в солнечную ночь - риск простудиться)

Команды использовали другой подход. Я бы выбрал LSTM. Но команда-победитель провела очень подробное объяснение «Разработка и отбор элементов». Дело в том, что важен не инструмент, а правильный выбор извлечения и выбора функций. https://arc.aiaa.org/doi/pdf/10.2514/6.2018-2561

Я прочитал и статью-победитель, и твою работу. На самом деле я предпочитаю твой путь. Как вы видите, если вы читаете статью, ваша методология вполне сопоставима, но они ставят исследование извлечения признаков в центр исследования.

Вы можете обезопасить свою работу, предоставив больше доказательств того, что вы выбрали правильный метод для ИП. Например, вы можете предоставить 2 метода FE и сравнить результат с данным методом, или вы объясните, что выбрали тот, который знает текущее состояние дел по этой конкретной статье, доказывающей блаблабла ...

Вы можете добавить сравнительный результат ARIMA VAR VARMA и ваш, чтобы проиллюстрировать «превосходство» и ссылки на статьи о состоянии дел за последние 3 года в этой области, а также другие ссылки на недавнюю публикацию на LSTM для энергетики прогноз потребления.

Ваш документ внезапно заканчивается, и можно ждать декоративного заключения, которое мы привыкли находить в обычной газете.

Вот оно.

(пожалуйста, не принимайте во внимание мое единственное мнение, так как я не чувствую себя специалистом по данным :) Я буду очень горд собой в тот день, когда смогу произвести то, что вы сделали;) спасибо, что поделились этим, было приятно читать это)

...