Я пытаюсь разобрать набор данных ".data" через python / pandas в 230 отдельных переменных в df, а затем экспортировать .csv.
Данные кажутся табличными, но также имеютНесколько других нюансов.Вот инструкции по формату из KDD:
Инструкции по форматированию данных из KDD Cup 2009
Наборы данных используют формат, аналогичный формату текстового формата экспортаиз реляционных баз данных:
- Одна строка заголовка с именами переменных
- Одна строка на экземпляр
- Разделение таблиц между значениями
- Есть пропущенные значения (последовательные таблицы)
Большая матрица получается в результате добавления различных кусков, загруженных в их номер заказа.Строка заголовка присутствует только в первом фрагменте.
Целевые значения (файлы .labels) имеют один пример на строку в том же порядке, что и соответствующие файлы данных.Обратите внимание на то, что отток, аппетитность и объем продаж являются тремя отдельными проблемами двоичной классификации.Целевые значения: +1 или -1.Мы ссылаемся на примеры с целевыми значениями +1 (соответственно -1) в качестве положительных (соответственно отрицательных) примеров.
Матрицы Matlab являются числовыми.При загрузке матрица данных называется X. Категориальные переменные отображаются в целые числа.Пропущенные значения заменяются на NaN для исходных числовых переменных, в то время как они сопоставляются с 0 для категориальных переменных.
Вот фрагмент кода, который выглядит при открытии в текстовом редакторе:
Var1 Var2 Var3 Var4 Var5 Var6 Var7 Var8 Var9 Var10 Var11 Var12 Var13 Var14 Var15 Var16 Var17 Var18 Var19 Var20 Var21 Var22 Var23 Var24 Var25 Var26 Var27 Var28 Var29 Var30 Var31 Var32 Var33 Var34 Var35 Var36 Var37 Var38 Var39 Var40 Var41 Var42 Var43 Var44 Var45 Var46 Var47 Var48 Var49 Var50 Var51 Var52 Var53 Var54 Var55 Var56 Var57 Var58 Var59 Var60 Var61 Var62 Var63 Var64 Var65 Var66 Var67 Var68 Var69 Var70 Var71 Var72 Var73 Var74 Var75 Var76 Var77 Var78 Var79 Var80 Var81 Var82 Var83 Var84 Var85 Var86 Var87 Var88 Var89 Var90 Var91 Var92 Var93 Var94 Var95 Var96 Var97 Var98 Var99 Var100 Var101 Var102 Var103 Var104 Var105 Var106 Var107 Var108 Var109 Var110 Var111 Var112 Var113 Var114 Var115 Var116 Var117 Var118 Var119 Var120 Var121 Var122 Var123 Var124 Var125 Var126 Var127 Var128 Var129 Var130 Var131 Var132 Var133 Var134 Var135 Var136 Var137 Var138 Var139 Var140 Var141 Var142 Var143 Var144 Var145 Var146 Var147 Var148 Var149 Var150 Var151 Var152 Var153 Var154 Var155 Var156 Var157 Var158 Var159 Var160 Var161 Var162 Var163 Var164 Var165 Var166 Var167 Var168 Var169 Var170 Var171 Var172 Var173 Var174 Var175 Var176 Var177 Var178 Var179 Var180 Var181 Var182 Var183 Var184 Var185 Var186 Var187 Var188 Var189 Var190 Var191 Var192 Var193 Var194 Var195 Var196 Var197 Var198 Var199 Var200 Var201 Var202 Var203 Var204 Var205 Var206 Var207 Var208 Var209 Var210 Var211 Var212 Var213 Var214 Var215 Var216 Var217 Var218 Var219 Var220 Var221 Var222 Var223 Var224 Var225 Var226 Var227 Var228 Var229 Var230
1225 7 100 156 195 0 72 166.56 0 4259232 0 2.565264 9 106 7 959480 0 70399.2 15 10 32 40 383386.4 620 54 20646 0 756720 1123876 1915 0 9 0 8335680 16 1689774 0 0 xddq9ayfAo RO12 taul 1K8T PShj iJzviRg 17VONbZnAuZ90atz MF5EBmj WVvO 9_Y1 vm5R VpdQ haYg 7M47J5GA0pTYIFxg5uy kIsH uKAI L84s H4p93_uThXwSG XREFJCi 7WwzJJY OgPm cJvF FzaX ch2oGfM Al6ZaUT P6pu4Vl LM8l689qOp
Я нашел это сообщение StackOverflow , чтобы помочь с тем, как использовать pandas для преобразования типа файла, однако логика синтаксического анализа текста совершенно другая.
Любая поддержка о том, какНавигация по этой проблеме была бы очень полезной, так как я собираюсь использовать этот набор данных, чтобы узнать, как применять интеллектуальное обучение к наборам данных CRM.
Спасибо !!!