Я написал функцию для очистки файла CSV с помощью функции регулярного выражения и экспорта его в CSV. входной файл fn_file для функции возьмет файл из папки 'x' с именем файла file.csv, обработает файл и экспортирует обработанный файл в папку 'x' как 'file_processed.csv'. При преобразовании кадра данных в CSV, он показывает ниже ошибку. Как добавить заголовок в виде столбца в файл
Use regex to create a file with title,date and header
fn_file : str
Name of file scraped from WDET
fn_out : str
Name of new, reformatted, file
Nothing returned. Just creates output file.
process_file('E:/data.csv' , 'E:/data_processed.csv')
ошибка в строке
повышение ValueError ('Конструктор DataFrame не вызван должным образом!')
ValueError: Конструктор DataFrame неправильно вызван!
s_df = pd.DataFrame (данные = fn_file, столбцы = [заголовок])
Мой код указан ниже
def process_file(fn_file , fn_csv_out):
s = re.compile(r'.*?word.+?\(\d{1,2}[ap]m-\d{1,2}[ap]m\)\s+$')
date = re.compile(r'(Sunday)\s+(\w+\s+\d+,\s+(2010))')
he = re.compile(r'\t\w+.\t\w+\t\w+\t\w+\s\(\w+\)\t\w+$')
son = re.compile(r'^.*\t\d+\t.+\t')
# Initialize counters
num_lines = 0
num_s = 0
num_date = 0
num_he = 0
num_son = 0
num_unmatched = 0
# Initialize empty list to store output lines
sonlines = []
# Initialize string vars to use for the show title and date
title = ''
date = ''
with open(fn_file) as f:
# Loop over the lines in the file
for line in f:
num_lines +=1
line = line.rstrip('\n')
m_s = re.match(s, line)
m_date = re.match(date, line)
m_he = re.match(he, line)
m_son = re.match(son, line)
if m_s:
num_s += 1
# Get the show title
ti = m_s.group()
elif m_date:
# it's a date line
num_date += 1
show_day = m_date.group(1)
s_date = m_date.group(2)
elif m_he:
# it's a header line
num_he += 1
heline = m_he.group()
elif m_son:
num_son += 1
son_group = m_son.group()
son = re.split(r'\t+', son_group)
header = re.split(r'\t+',heline.rstrip('\t'))
header[0] = 'b'
# Create pandas dataframe and export to csv
```lines throwing error
s_df = pd.DataFrame(data = fn_file, columns = [header])
s_df.to_csv(fn_csv_out, sep='\t', index= False)
Last two lines are throwing error, Can you please help on the error. Thanks in advance.