Как использовать мои пространственно-временные данные для прогнозирования? - PullRequest
0 голосов
/ 24 февраля 2020

У меня есть набор данных в виде:

Метка времени (дневной интервал)

Широта

Долгота

Целевое значение (у).

Итак, я хочу обучить модель с этими данными и выполнить интерполяцию. Поэтому я использую все данные в процессе обучения, и во время процесса тестирования входные данные будут x = [timestamp, lat, lon] с прогнозом, являющимся целевым значением. Так что пространственные и временные аспекты действительно важны.

Мой вопрос: какую модель использовать и как обрабатывать мои данные? Одно очень простое, но не сложное решение, которое я попробовал, состояло в том, чтобы использовать KNN Regressor , поэтому, учитывая время, широта и долгота, он находит ближайших соседей и дает целевое значение. Любые идеи, как я должен обрабатывать пространственно-временных данных ?

Спасибо

1 Ответ

0 голосов
/ 24 февраля 2020

Я думаю, что этот вопрос лучше подходит для сообщества Data Science: https://datascience.stackexchange.com/

Есть много способов решения этой проблемы, в зависимости от того, какие данные они представляют и какие предсказаний, которые вы хотите сделать. Хорошее обсуждение таких прогнозов можно найти в недавнем конкурсе Kaggle, см. «Записки и обсуждения» там:

https://www.kaggle.com/c/bigquery-geotab-intersection-congestion/overview

В этом конкурсе использовалось BigQueryML - в качестве самого простого подхода вы можете подавать входные данные в модель BigQueryML K-Means и получать прогнозы. Обратите внимание, что BigQueryML поддерживает тип Geography, поэтому вам следует указать Geography (используя ST_GeogPoint(longitude, latitude)) - это даст вам лучшие результаты, чем подача lat / lon в качестве независимых переменных без пространственной семантики.

...