Я пытаюсь подготовить набор данных, чтобы использовать его в качестве обучающих данных для глубокой нейронной сети. Он состоит из 13 файлов .txt, каждый размером от 500 МБ до 2 ГБ. Однако при попытке запустить файл «data_prepare.py» я получаю сообщение об ошибке «Значение» в заголовке этого поста.
Читая ответы из предыдущих постов, я загрузил свои данные в R и проверил как NaN, так и бесконечные числа, но используемые команды говорят мне, что с моими данными все в порядке. Я сделал следующее:
- Я загружаю свои данные как один отдельный фрейм данных, используя пакеты magrittr, data.table и purrr (их около 300 миллионов, все с 7 переменными):
txt_fread <-
list.files(pattern="*.txt") %>%
map_df(~fread(.))
Я использовал sapply для проверки конечных значений и значений NaN:
>any(sapply(txt_fread, is.finite))
[1] TRUE
> any(sapply(txt_fread, is.nan))
[1] FALSE
Я также попытался загрузить каждый фрейм данных в блокнот jupyter и проверить по отдельности эти значения с помощью следующих команд:
file1= pd.read_csv("File_name_xyz_intensity_rgb.txt", sep=" ", header=None)
np.any(np.isnan(file1))
False
np.all(np.isfinite(file1))
True
И когда я использую print (file1.info ()), это то, что я получаю в качестве информации:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22525176 entries, 0 to 22525175
Data columns (total 7 columns):
# Column Dtype
--- ------ -----
0 0 float64
1 1 float64
2 2 float64
3 3 int64
4 4 int64
5 5 int64
6 6 int64
dtypes: float64(3), int64(4)
memory usage: 1.2 GB
None
Я знаю файл, содержащий код (data_prepare.py ) работает, потому что он работает правильно с аналогичным набором данных. Поэтому я знаю, что это должно быть проблемой с новыми данными, которые я здесь упоминаю, но я не знаю, что я пропустил или сделал неправильно при проверке NaN и бесконечности. Я также пытался читать и проверять файлы .txt по отдельности, но это также мало помогло.
Любая помощь действительно приветствуется !!
Кстати: код R с map_df взят из сообщение leerssej в Как импортировать несколько файлов .csv одновременно?