Как объединить двухлетний набор данных в регрессии DecisionTree - PullRequest
0 голосов
/ 25 сентября 2019

В настоящее время я пытаюсь предсказать ранг, когда присваивается оценка. Я собрал оценки и ранги за последние два года. Но я не знаю, как интегрировать набор данных за оба года. Я просто взял среднее значение обоихгоды, но я не думаю, что прогноз будет правильным. Есть ли другой способ предсказать ранг, когда оценка дается ???

2017 набор данных: (оценки, ранг) -air.csv

120,656124
121,633433
122,631238
123,630456
124,629987
125,629644
126,618743
127,600123
128,598432
129,587422
130,580499
131,580123
132,579873
133,577889
134,573456
135,571238
136,569234
137,567781
138,556723
139,547892
140,543473
141,542189
142,541021
143,539343
144,537653
145,531476
146,529999
147,528987
148,522232
149,512446
150,502572
151,199123
152,484197
153,482563
154,481254
155,480123
156,478123
157,477898
158,473132
159,471232
160,469129
161,467123
162,464543
163,461178
164,459182
165,456123
166,449374
167,447876
168,443234
169,440123
170,438229
171,436772
172,431223
173,428971
174,427655
175,423456
176,421221
177,419873
178,416782
179,413432
180,409732
181,408792
182,407678
183,405678
184,402456
185,401234
186,395678
187,394768
188,391234
189,384764
190,383340
191,381233
192,378234
193,371234
194,369999
195,367762
196,369123
197,368742
198,359992
199,359876
200,358808
201,357602
202,354768
203,351763
204,349898
205,347877
206,341289
207,338344
208,337834
209,336078
210,335921
211,334692
212,332937
213,331456
214,330156
215,329981
216,329874
217,328876
218,318787
219,317897
220,314758
221,314578
222,313333
223,312343
224,311560
225,309761
226,308972
227,304567
228,301234
229,294982
230,294822
231,293888
232,293616
233,292314
234,289912
235,289734
236,286786
237,281234
238,278965
239,277434
240,276078
241,275342
242,272987
243,270154
244,269999
245,267984
246,265837
247,263363
248,261534
249,259876
250,258630
251,257100
252,256784
253,255176
254,253474
255,250178
256,248176
257,247374
258,244789
259,242676
260,242142
261,242001
262,241345
263,240143
264,239999
265,239645
266,237655
267,235645
268,229876
269,224232
270,211988
271,210974
272,208974
273,207345
274,205678
275,201897
276,200174
277,199976
278,199678
279,199153
280,198052
281,195673
282,193433
283,192177
284,193146
285,190122
286,189173
287,188927
288,186174
289,184978
290,184931
291,184473
292,183762
293,183174
294,182146
295,181374
296,180123
297,179874
298,177189
299,174162
300,172278
301,171124
302,170123
303,169184
304,167168
305,166789
306,164279
307,163133
308,162178
309,161277
310,160535
311,159766
312,157898
313,154678
314,153143
315,152347
316,151273
317,150879
318,150164
319,149978
320,149614
321,148148
322,147364
323,146123
324,145166
325,141234
326,140123
327,139872
328,139172
329,138997
330,138981
331,138564
332,137816
333,135678
334,134213
335,133244
336,131784
337,130123
338,129994
339,129876
340,128853
341,128823
342,127876
343,126987
344,126784
345,124777
346,122456
347,121789
348,121374
349,119786
350,119395
351,118974
352,117898
353,117117
354,116897
355,115765
356,113476
357,112345
358,110971
359,110789
360,110266
361,110011
362,109923
363,109543
364,109213
365,108723
366,108321
367,107123
368,106432
369,103545
370,101720
371,100013
372,99054
373,99176
374,98891
375,97982
376,97889
377,95555
378,94156
379,93789
380,93741
381,92754
382,91356
383,90547
384,89973
385,89343
386,88943
387,88178
388,87964
389,87564
390,86257
391,85897
392,84456
393,83878
394,82789
395,82647
396,81234
397,80467
398,79452
399,79012
400,78651
401,78143
402,77864
403,77197
404,76909
405,75877
406,74566
407,72678
408,72345
409,72197
410,71938
411,70564
412,69879
413,69567
414,68564
415,68197
416,67872
417,67347
418,66789
419,66134
420,65280
421,65110
422,64787
423,64176
424,63456
425,62678
426,62543
427,61222
428,60123
429,59683
430,59177
431,58747
432,58143
433,57999
434,57871
435,57123
436,56456
437,56231
438,55186
439,54677
440,53184
441,52768
442,52678
443,52387
444,51777
445,51279
446,51123
447,50138
448,49137
449,48989
450,47809
451,46789
452,46201
453,45789
454,45654
455,44872
456,44137
457,44001
458,43986
459,43477
460,43019
461,42156
462,41354
463,40046
464,40001
465,39899
466,39784
467,39635
468,38976
469,38243
470,38152
471,37843
472,37804
473,36543
474,36147
475,35673
476,35343
477,34477
478,34127
479,33977
480,33893
481,32164
482,32457
483,31762
484,30873
485,30678
486,30456
487,30198
488,30176
489,29764
490,29557
491,28775
492,28543
493,27889
494,27456
495,27124
496,27003
497,26345
498,26124
499,25987
500,25842
501,25543
502,25372
503,24877
504,24567
505,23777
506,23674
507,23146
508,22788
509,22654
510,22372
511,22145
512,21807
513,21372
514,20761
515,20143
516,19872
517,19647
518,19231
519,18971
520,18876
521,18432
522,18019
523,17653
524,17321
525,17243
526,16976
527,16877
528,16578
529,16354
530,16163
531,16069
532,15837
533,15625
534,15009
535,14788
536,14387
537,14146
538,13956
539,13678
540,13353
541,13247
542,12543
543,12377
544,12454
545,11976
546,11789
547,11456
548,11023
549,10678
550,10351
551,10007
552,9987
553,9765
554,9432
555,9150
556,9001
557,8984
558,8901
559,8897
560,8736
561,8500
562,8347
563,8126
564,7789
565,7364
566,7145
567,6932
568,6889
569,6812
570,6788
571,6689
572,6567
573,6345
574,6256
575,6111
576,5993
577,5891
578,5789
579,5678
580,5333
581,5229
582,4943
583,4701
584,4665
585,4426
586,4333
587,4219
588,4018
589,3998
590,3874
591,3771
592,3707
593,3613
594,3568
595,3412
596,3392
597,3289
598,3193
599,2987
600,2862
601,2786
602,2763
603,2680
604,2479
605,2387
606,2249
607,2189
608,2057
609,2003
610,1962
611,1899
612,1849
613,1791
614,1745
615,1693
616,1618
617,1534
618,1487
619,1412
620,1309
621,1308
622,1267
623,1219
624,1173
625,1107
626,956
627,923
628,901
629,873
630,870
631,831
632,797
633,769
634,703
635,687
636,648
637,610
638,578
639,546
640,535
641,494
642,476
643,457
644,423
645,401
646,386
647,378
648,335
649,310
650,302
651,301
652,297
653,270
654,267
655,245
656,235
657,207
658,197
659,183
660,178
661,163
662,161
663,150
664,147
665,126
666,110
667,96
668,91
669,87
670,83
671,78
672,69
673,63
674,59
675,57
676,53
677,48
678,42
679,39
680,30
681,25
681,24
681,23
682,22
682,21
682,20
683,19
684,18
685,17
685,16
685,15
685,14
685,13
685,12
685,11
686,10
690,9
690,8
691,7
691,6
691,5
692,4
695,3
695,2
697,1

2018 набор данных: (оценки, ранг) -airr.csv

111,673394
115,670234
116,668012
117,663123
118,636456
119,630716
120,624310
121,624309
122,616789
123,612345
124,606246
125,600347
126,596789
127,592345
128,588920
129,581234
130,579716
131,579715
132,576124
133,575232
134,568902
135,566780
136,561729
137,549724
138,543376
139,541678
140,539449
141,539448
142,534678
143,529763
144,526780
145,523450
146,519894
147,516782
148,509879
149,506578
150,502828
151,502827
152,499093
153,495366
154,494376
155,488765
156,482194
157,479678
158,474123
159,470892
160,469210
161,469209
162,163722
163,459124
164,455678
165,450172
166,449870
167,448769
168,441236
169,439123
170,438271
171,438270
172,433450
173,431879
174,430016
175,429890
176,428784
177,423567
178,416789
179,412345
180,409831
181,409830
182,399912
183,397812
184,394567
185,392456
186,390098
187,389970
188,387567
189,386703
190,383504
191,383503
192,382122
193,380546
194,378796
195,375687
196,371089
197,368972
198,368716
199,359918
200,359012
201,359011
202,355674
203,350236
204,347820
205,343154
206,339156
207,338678
208,338124
209,337208
210,336165
211,336164
212,332567
213,329875
214,325670
215,322354
216,320456
217,319898
218,317982
219,316789
220,314655
221,314654
222,314243
223,313568
224,313014
225,312345
226,308972
227,305678
228,301234
229,298769
230,294518
231,294517
232,293872
233,292734
234,291348
235,291016
236,289454
237,288782
238,283472
239,281765
240,275716
241,275715
242,273145
243,271234
244,269184
245,266789
246,264576
247,262345
248,260877
249,259876
250,257836
251,257835
252,256143
253,252345
254,250879
255,249124
256,248912
257,247658
258,244678
259,242567
260,240649
261,240648
262,239184
263,237456
264,234121
265,232674
266,230546
267,229134
268,227654
269,225156
270,224739
271,224738
272,238789
273,234589
274,221470
275,220789
276,219634
277,218974
278,215678
279,212342
280,209323
281,209322
282,204537
283,199464
284,199230
285,198456
286,198124
287,197452
288,196780
289,195630
290,194680
291,194679
292,193456
293,192644
294,190124
295,187924
296,187789
297,185967
298,183741
299,181456
300,180987
301,180986
302,180178
303,179123
304,178190
305,174567
306,172457
307,171455
308,170230
309,169908
310,167742
311,167741
312,166766
313,165270
314,164250
315,163245
316,161234
317,159234
318,158679
319,157650
320,155265
321,155264
322,154657
323,152345
324,150123
325,149674
326,148392
327,147658
328,145368
329,144124
330,143345
331,143344
332,142678
333,141234
334,140166
335,139174
336,136878
337,135135
338,133788
339,133564
340,132094
341,132093
342,131567
343,130143
344,128789
345,127648
346,125999
347,125878
348,124567
349,122870
350,121480
351,121479
352,121387
353,121246
354,120967
355,120656
356,119840
357,117689
358,115876
359,112345
360,111484
361,111483
362,111234
363,110789
364,110465
365,109413
366,107892
367,106789
368,104567
369,102678
370,102007
371,102006
372,101678
373,101234
374,100345
375,99234
376,97111
377,96632
378,95432
379,94216
380,93121
381,93120
382,91260
383,89100
384,88123
385,87790
386,86630
387,85710
388,85630
389,84938
390,84900
391,84899
392,83980
393,83678
394,82346
395,81345
396,80130
397,79567
398,78265
399,78154
400,76982
401,76981
402,75123
403,73564
404,72987
405,72776
406,71874
407,70546
408,69997
409,69821
410,69530
411,69529
412,68174
413,67890
414,66234
415,65123
416,64678
417,63876
418,63113
419,62876
420,62507
421,62506
422,61511
423,60110
424,59456
425,59266
426,58101
427,57344
428,56799
429,56087
430,55929
431,55928
432,54679
433,53128
434,52874
435,51645
436,50841
437,50246
438,50123
439,49999
440,49908
441,49907
442,48230
443,47890
444,47340
445,46990
446,46124
447,45870
448,45674
449,44879
450,44228
451,44227
452,43720
453,42345
454,41205
455,40680
456,40120
457,39788
458,39234
459,39045
460,38948
461,38947
462,37678
463,37333
464,36897
465,36124
466,35788
467,35454
468,34897
469,34567
470,34038
471,34037
472,33784
473,33234
474,32888
475,32667
476,32456
477,31678
478,30170
479,29870
480,29529
481,29628
482,29224
483,28954
484,28567
485,28134
486,27546
487,27340
488,26880
489,26130
490,25230
491,25229
492,24891
493,24648
494,24107
495,23789
496,23436
497,22878
498,22576
499,22444
500,21338
501,21337
502,20546
503,19876
504,19745
505,19123
506,18694
507,18345
508,18197
509,17645
510,17817
511,17816
512,17223
513,16784
514,16234
515,15872
516,15673
517,15124
518,14999
519,14878
520,14630
521,14629
522,14232
523,13784
524,13485
525,13104
526,12674
527,12576
528,12455
529,11945
530,11886
531,11885
532,11567
533,11234
534,10784
535,10464
536,10243
537,10013
538,9991
539,9782
540,9494
541,9493
542,9213
543,8912
544,8567
545,8349
546,8191
547,8019
548,7912
549,7896
550,7434
551,7433
552,7234
553,6912
554,6874
555,6662
556,6340
557,5910
558,5879
559,5678
560,5616
561,5615
562,5578
563,5345
564,5097
565,4989
566,4880
567,4616
568,4489
569,4267
570,4203
571,4202
572,4140
573,4089
574,3912
575,3884
576,3689
577,3468
578,3276
579,3120
580,3085
581,3084
582,2934
583,2845
584,2817
585,2578
586,2416
587,2378
588,2314
589,2221
590,2170
591,2169
592,1068
594,1910
597,1789
600,1506
601,1505
602,1497
603,1456
604,1386
605,1314
606,1299
607,1283
608,1175
609,1010
610,995
611,994
612,957
613,912
614,888
615,834
616,801
617,726
618,680
619,654
620,640
621,639
622,622
623,589
624,534
625,510
626,492
627,477
628,468
629,410
630,399
631,398
632,372
633,345
634,317
635,294
636,277
637,261
638,253
639,246
640,233
641,232
642,224
643,211
644,197
645,194
646,187
647,158
648,147
649,129
650,123
651,122
652,118
653,113
654,97
655,91
656,86
657,79
658,75
659,70
660,64
661,63
662,58
663,56
664,53
665,49
666,45
667,43
668,41
669,35
670,32
671,26
672,25
673,24
675,23
675,22
675,21
675,20
675,19
675,18
675,17
675,16
675,15
675,14
676,13
676,12
680,11
680,10
680,9
680,8
685,7
685,6
686,5
686,4
690,3
690,2
691,1

Код моего машинного обучения

import numpy as np
import matplotlib.pyplot as plt  # To visualize
import pandas as pd  # To read data
from sklearn.tree import DecisionTreeRegressor
data = pd.read_csv('airr.csv')  # load data set
X = data.iloc[:, 0].values.reshape(-1, 1)  # values converts it into a numpy array
Y = data.iloc[:, 1].values.reshape(-1, 1) # -1 means that calculate the dimension of rows, but have 1 column
data1=pd.read_csv("air.csv")
U=data1.iloc[:, 0].values.reshape(-1, 1)
V=data1.iloc[:, 1].values.reshape(-1, 1)
#plt.ylim(1,700000)
plt.xlabel("rank")
plt.ylabel("marks")
regressor = DecisionTreeRegressor()
regressor.fit(X, Y)
# Predicting a new result
y_pred = regressor.predict(X)
X_grid = np.arange(min(X), max(X), 0.01)
X_grid = X_grid.reshape((len(X_grid), 1))
plt.scatter(X, Y, color = 'red')
plt.plot(X_grid, regressor.predict(X_grid), color = 'blue')
plt.xlabel('marks')
plt.ylabel('rank')
plt.show()
a=np.array([670])
a=a.reshape(1,-1)
ans=int(regressor.predict(a))

regressor.fit(U,V)
answer=int(regressor.predict(a))
print(int((answer+ans)/2))

1 Ответ

0 голосов
/ 25 сентября 2019

Иногда мне интересно, как люди могут думать, что машинное обучение - это: Данные + Алгоритм -> Готово.

Как вы думаете, как дерево решений может быть построено только с одним столбцом для прогнозирования другого столбца?

enter image description here

Это будет означать, что у вас есть только один узел в вашем случае, в вашем случае это будет означать одно правило принятия решения ..... Я не думаю, что выс помощью этого можно предсказать любое значение?

То, что вы должны искать, называется: timeseries.Основы, которые вы можете найти в Википедии: https://en.wikipedia.org/wiki/Time_series. Но, чтобы быть понятным, временные ряды не легки, это займет несколько недель, чтобы выучить.

Что также может помочь вам, это напечатать ваши данныена оси х = метки и на оси у = ранги, чтобы увидеть, как данные перемещаются с течением времени.https://seaborn.pydata.org/generated/seaborn.lineplot.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...