Каждый из моих файлов данных исследований "* .dat" содержит до 2000000 строк данных. Номер столбца каждой строки данных может отличаться друг от друга. Ниже приведен пример.
FRAM_# 0 0(fs) CN= 1 PRMRYTGT 14689 H 15449 O 1.008
FRAM_# 1100 275(fs) CN= 2 PRMRYTGT 14689 H 17402 O 1.257 15449 O 1.430
FRAM_# 303200 75800(fs) CN= 0 PRMRYTGT_BD 14689 H
FRAM_# 921200 230300(fs) CN= 1 PRMRYTGT_BD 14689 H 8375 O 1.062
FRAM_# 1078700 269675(fs) CN= 1 PRMRYTGT_BD 14689 H 12971 O 1.507
FRAM_# 18203400 4550850(fs) CN= 1 PRMRYTGT_BD 14689 H 16172 O 1.507
Каждый столбец отделен "". Как я могу читать данные, как описано выше, используя Panda, Scipy или любые другие мощные модули? Кроме того, могут существовать дублированные данные. Если это так, как я могу отфильтровать эти дублированные данные? Любые дальнейшие предложения будут высоко оценены.