Еще одно «ValueError: Input содержит NaN, бесконечность или значение, слишком большое для dtype ('float64')". Я проверил, но данные, кажется, в порядке - PullRequest
0 голосов
/ 07 апреля 2020

Я пытаюсь подготовить набор данных, чтобы использовать его в качестве обучающих данных для глубокой нейронной сети. Он состоит из 13 файлов .txt, каждый размером от 500 МБ до 2 ГБ. Однако при попытке запустить файл «data_prepare.py» я получаю сообщение об ошибке «Значение» в заголовке этого поста.

Читая ответы из предыдущих постов, я загрузил свои данные в R и проверил как NaN, так и бесконечные числа, но используемые команды говорят мне, что с моими данными все в порядке. Я сделал следующее:

  1. Я загружаю свои данные как один отдельный фрейм данных, используя пакеты magrittr, data.table и purrr (их около 300 миллионов, все с 7 переменными):
txt_fread <- 
  list.files(pattern="*.txt") %>%
  map_df(~fread(.))
Я использовал sapply для проверки конечных значений и значений NaN:
>any(sapply(txt_fread, is.finite))
[1] TRUE
> any(sapply(txt_fread, is.nan))
[1] FALSE

Я также попытался загрузить каждый фрейм данных в блокнот jupyter и проверить по отдельности эти значения с помощью следующих команд:

file1= pd.read_csv("File_name_xyz_intensity_rgb.txt", sep=" ", header=None)

np.any(np.isnan(file1))
False

np.all(np.isfinite(file1))
True

И когда я использую print (file1.info ()), это то, что я получаю в качестве информации:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22525176 entries, 0 to 22525175
Data columns (total 7 columns):
 #   Column  Dtype  
---  ------  -----  
 0   0       float64
 1   1       float64
 2   2       float64
 3   3       int64  
 4   4       int64  
 5   5       int64  
 6   6       int64  
dtypes: float64(3), int64(4)
memory usage: 1.2 GB
None

Я знаю файл, содержащий код (data_prepare.py ) работает, потому что он работает правильно с аналогичным набором данных. Поэтому я знаю, что это должно быть проблемой с новыми данными, которые я здесь упоминаю, но я не знаю, что я пропустил или сделал неправильно при проверке NaN и бесконечности. Я также пытался читать и проверять файлы .txt по отдельности, но это также мало помогло.

Любая помощь действительно приветствуется !!

Кстати: код R с map_df взят из сообщение leerssej в Как импортировать несколько файлов .csv одновременно?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...