У меня есть данные в виде:
000000008,2, 1,000000009,H,9740,000000008
000000009,1, 1,000000009,G,8790,000000008
000000010,1, 1,000000009,A,4081,000000008
000000011,2, 1, ., , .,000000011
000000012,3, 1, ., , ., .
000000013,2, 1, ., , .,000000013
Вы видите, что некоторые значения отсутствуют в последних 3 строках, и вот в чем проблема: как преобразовать в правильный тип данных и обработать эти случаи для большого набора данных?
Для некоторых столбцов, если значение отсутствует, я хочу исключить эти строки, для других я бы хотел установить его на какое-то значение.
Вот мой код:
inputDBFilename = inputDir + 'testData.txt'
df = pd.read_table(inputDBFilename, delimiter=',',
names=('A', 'B', 'C', 'D', 'E', 'F', 'G'),
na_values=[' .'],
dtype={'A': np.uint64, 'B': np.uint8, 'C': np.uint8, 'D': np.uint64,
'E': np.str, 'F': np.uint16, 'G': np.uint64})
Я получаю ошибку:
ValueError: Integer column has NA values in column 3
Но почему это ошибка - следует ожидать этих значений NA !!