У меня есть этот набор данных для преступлений с периодом 12 месяцев, более 250 тысяч строк, и я хочу предсказать будущие преступления по дате и месту - PullRequest
0 голосов
/ 03 апреля 2019

У меня есть этот набор данных 250 КБ с этими функциями

    date_time       FullAddress             call_type priority   lat       long
0   6/14/17 21:54   10 14TH ST\, San Diego\, CA 1151    2.0 32.705449   -117.151870
1   3/29/17 22:24   10 14TH ST\, San Diego\, CA 1016    2.0 32.705449   -117.151870
2   6/3/17 18:04    10 14TH ST\, San Diego\, CA 1016    2.0 32.705449   -117.151870
3   3/17/17 10:57   10 14TH ST\, San Diego\, CA 1151    2.0 32.705449   -117.151870
4   3/3/17 23:45    10 15TH ST\, San Diego\, CA 911P    2.0 32.705722   -117.15035

Дата и время, полный адрес, широта и долгота, а также тип звонка и уровень серьезности преступления.Я хочу предсказать время, когда произойдут будущие преступления, или предсказать место, где это произойдет снова.Как я могу это сделать, буду ли я использовать регрессию или классификацию?я уже предсказал приоритет, но как я могу предсказать время, когда это произойдет, или местоположение?

Я предсказал приоритет, но на самом деле мне ничего не дает.Я хочу предсказать время и место, или либо, либо.

это некоторый код, который у меня есть для моего прогноза приоритета

from sklearn.ensemble import RandomForestClassifier
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
my_RandomForest = RandomForestClassifier(n_estimators=100, random_state=0)

my_RandomForest.fit(X_train, y_train)
y_predict_fr = my_RandomForest.predict(X_test)
from sklearn.metrics import accuracy_score
print(y_predict_fr)
accuracy_fr = accuracy_score(y_test, y_predict_fr)
print(accuracy_fr)

[4. 3. 2. ... 3. 1. 2.]
0.95100761598545

Ответы [ 2 ]

0 голосов
/ 03 апреля 2019

Время - это последовательность, и для предсказания последовательности вы хотите использовать RNN ( wiki ) (например, LSTM). Хорошая книга для подробностей: ссылка .

Если вы хотите прогнозировать местоположение только (без времени) по заданному времени, типу и приоритету, вы можете удалить столбец времени или, предпочтительно, извлечь новые функции из столбца, например день недели, и использовать регрессионную модель ( nn с 2 единицами на выходе). Прогнозирование координат местоположения является проблемой регрессии, поскольку координаты являются непрерывной переменной.

Если вы хотите предсказать и то, и другое, я думаю, может быть, вам следует предсказать время по rnn и после прогнозировать местоположение по регрессионной модели.

Зависит от контекста, возможно, будет более полезно, если вы представляете объекты местоположения по району города.

Надеюсь, это поможет.

0 голосов
/ 03 апреля 2019

Для определения местоположения вам необходимо создать категориальную переменную y для классификатора, возможно, преобразовав функции lat / long в почтовый индекс и назначив каждому почтовому индексу целое число (которое будет эквивалентно «приоритету»).

...