Я хотел извлечь большой текстовый файл (5 г байтов) и разделить его на несколько файлов.Файл не структурирован и не разделен никакими символами.
Я использую read_fwf с dask.Он отлично импортируется, и мне удалось успешно разбить файл.
, но когда он импортирует данные, он удаляет начальные и конечные пробелы.
Есть ли способ извлечь данные, рассматривая каждое пустое пространство как символ?
вот код:
import pandas as pd
from dask.distributed import Client
client= Client(n_workers=1,threads_per_worker=4,processes=False,memory_limit='20GB')
client
import dask.dataframe as dd
df=dd.read_fwf(file,header = None, ,skip_blank_lines = False)
Я знаю, что могу использовать read_csvили с помощью open или mmap также.но использование read_fwf сделает мою жизнь проще.
Пожалуйста, помогите!