Я попытался закодировать символы Юникода в файле, который я передаю в кадр данных pandas.Но число уникальных подсчетов строк с помощью df.column.value_counts (), которое я получаю в записной книжке Jupyter, не соответствует количеству строк в Excel одного и того же файла (после удаления повторяющихся значений).
Как мне исправить проблему?
Я загрузил текстовый файл (разделенный табуляцией) и преобразовал его в кадр данных pandas, используя encoding = 'ISO-8859-1'.Кадр данных был создан с уникальным количеством строк 66370 для одного из столбцов.
Когда я применил «Удалить дубликаты» в нужном столбце исходного файла CSV (я использовал MS Excel для чтения файла экспорта), число уникальных значений = 66368.
Тамразница в 2 в этих 2 файлах - кадр данных pandas в Jupyter Notebook - уникальное количество строк в pandas (66370) и версия строк в превосходной версии (66368).
Я понимаю, что это может быть проблема с кодировкой, но я не могу исправить это.
Может кто-нибудь помочь, пожалуйста?
df = pd.read_csv('csv_file.csv', encoding= 'ISO-8859-1')
df.column1.value_counts()
Я ожидаю равных результатов в версиях уникальных row_counts и df.column1.value_counts ().
Фактические результатыпоказывая разницу 2 в счетчиках строк этими двумя методами.