KDD Cup 2009: анализ и преобразование набора данных с расширением .data в .csv? - PullRequest
0 голосов
/ 24 сентября 2018

Я пытаюсь разобрать набор данных ".data" через python / pandas в 230 отдельных переменных в df, а затем экспортировать .csv.

Данные кажутся табличными, но также имеютНесколько других нюансов.Вот инструкции по формату из KDD:

Инструкции по форматированию данных из KDD Cup 2009

Наборы данных используют формат, аналогичный формату текстового формата экспортаиз реляционных баз данных:

  1. Одна строка заголовка с именами переменных
  2. Одна строка на экземпляр
  3. Разделение таблиц между значениями
  4. Есть пропущенные значения (последовательные таблицы)

Большая матрица получается в результате добавления различных кусков, загруженных в их номер заказа.Строка заголовка присутствует только в первом фрагменте.

Целевые значения (файлы .labels) имеют один пример на строку в том же порядке, что и соответствующие файлы данных.Обратите внимание на то, что отток, аппетитность и объем продаж являются тремя отдельными проблемами двоичной классификации.Целевые значения: +1 или -1.Мы ссылаемся на примеры с целевыми значениями +1 (соответственно -1) в качестве положительных (соответственно отрицательных) примеров.

Матрицы Matlab являются числовыми.При загрузке матрица данных называется X. Категориальные переменные отображаются в целые числа.Пропущенные значения заменяются на NaN для исходных числовых переменных, в то время как они сопоставляются с 0 для категориальных переменных.

Вот фрагмент кода, который выглядит при открытии в текстовом редакторе:

Var1    Var2    Var3    Var4    Var5    Var6    Var7    Var8    Var9    Var10   Var11   Var12   Var13   Var14   Var15   Var16   Var17   Var18   Var19   Var20   Var21   Var22   Var23   Var24   Var25   Var26   Var27   Var28   Var29   Var30   Var31   Var32   Var33   Var34   Var35   Var36   Var37   Var38   Var39   Var40   Var41   Var42   Var43   Var44   Var45   Var46   Var47   Var48   Var49   Var50   Var51   Var52   Var53   Var54   Var55   Var56   Var57   Var58   Var59   Var60   Var61   Var62   Var63   Var64   Var65   Var66   Var67   Var68   Var69   Var70   Var71   Var72   Var73   Var74   Var75   Var76   Var77   Var78   Var79   Var80   Var81   Var82   Var83   Var84   Var85   Var86   Var87   Var88   Var89   Var90   Var91   Var92   Var93   Var94   Var95   Var96   Var97   Var98   Var99   Var100  Var101  Var102  Var103  Var104  Var105  Var106  Var107  Var108  Var109  Var110  Var111  Var112  Var113  Var114  Var115  Var116  Var117  Var118  Var119  Var120  Var121  Var122  Var123  Var124  Var125  Var126  Var127  Var128  Var129  Var130  Var131  Var132  Var133  Var134  Var135  Var136  Var137  Var138  Var139  Var140  Var141  Var142  Var143  Var144  Var145  Var146  Var147  Var148  Var149  Var150  Var151  Var152  Var153  Var154  Var155  Var156  Var157  Var158  Var159  Var160  Var161  Var162  Var163  Var164  Var165  Var166  Var167  Var168  Var169  Var170  Var171  Var172  Var173  Var174  Var175  Var176  Var177  Var178  Var179  Var180  Var181  Var182  Var183  Var184  Var185  Var186  Var187  Var188  Var189  Var190  Var191  Var192  Var193  Var194  Var195  Var196  Var197  Var198  Var199  Var200  Var201  Var202  Var203  Var204  Var205  Var206  Var207  Var208  Var209  Var210  Var211  Var212  Var213  Var214  Var215  Var216  Var217  Var218  Var219  Var220  Var221  Var222  Var223  Var224  Var225  Var226  Var227  Var228  Var229  Var230
                1225    7                       100                             156 195     0   72          166.56                          0           4259232                     0                                                   2.565264                                9                               106 7       959480      0           70399.2     15      10                                                                                              32          40  383386.4                        620             54      20646                           0   756720  1123876                     1915            0   9                   0               8335680                         16          1689774                                     0                               0                                           xddq9ayfAo  RO12        taul    1K8T    PShj    iJzviRg 17VONbZnAuZ90atz    MF5EBmj     WVvO    9_Y1    vm5R    VpdQ    haYg    7M47J5GA0pTYIFxg5uy kIsH        uKAI    L84s    H4p93_uThXwSG       XREFJCi     7WwzJJY OgPm    cJvF    FzaX    ch2oGfM Al6ZaUT P6pu4Vl LM8l689qOp

Я нашел это сообщение StackOverflow , чтобы помочь с тем, как использовать pandas для преобразования типа файла, однако логика синтаксического анализа текста совершенно другая.

Любая поддержка о том, какНавигация по этой проблеме была бы очень полезной, так как я собираюсь использовать этот набор данных, чтобы узнать, как применять интеллектуальное обучение к наборам данных CRM.

Спасибо !!!

...