Чтение числовых данных Excel в виде текста с использованием xlrd в Python - PullRequest
17 голосов
/ 29 апреля 2010

Я пытаюсь прочитать файл Excel с помощью xlrd, и мне интересно, есть ли способ игнорировать форматирование ячеек, использованное в файле Excel, и просто импортировать все данные как текст?

Вот код, который я использую для далеко:

import xlrd

xls_file = 'xltest.xls'
xls_workbook = xlrd.open_workbook(xls_file)
xls_sheet = xls_workbook.sheet_by_index(0)

raw_data = [['']*xls_sheet.ncols for _ in range(xls_sheet.nrows)]
raw_str = ''
feild_delim = ','
text_delim = '"'

for rnum in range(xls_sheet.nrows):
    for cnum in range(xls_sheet.ncols):
        raw_data[rnum][cnum] = str(xls_sheet.cell(rnum,cnum).value)

for rnum in range(len(raw_data)):
    for cnum in range(len(raw_data[rnum])):
        if (cnum == len(raw_data[rnum]) - 1):
            feild_delim = '\n'
        else:
            feild_delim = ','
        raw_str += text_delim + raw_data[rnum][cnum] + text_delim + feild_delim

final_csv = open('FINAL.csv', 'w')
final_csv.write(raw_str)
final_csv.close()

Этот код является функциональным, но есть определенные поля, такие как почтовый индекс, которые импортируются как числа, поэтому они имеют суффикс десятичного нуля. Например, если в файле Excel есть почтовый индекс «79854», он будет импортирован как «79854.0».

Я пытался найти решение в этой xlrd spec , но безуспешно.

Ответы [ 2 ]

23 голосов
/ 30 апреля 2010

Это потому, что целочисленные значения в Excel импортируются как числа с плавающей точкой в ​​Python. Таким образом, sheet.cell(r,c).value возвращает число с плавающей запятой. Попробуйте преобразовать значения в целые числа, но сначала убедитесь, что в Excel эти значения были целыми числами:

cell = sheet.cell(r,c)
cell_value = cell.value
if cell.ctype in (2,3) and int(cell_value) == cell_value:
    cell_value = int(cell_value)

Это - все в xlrd spec .

4 голосов
/ 28 мая 2010

Я знаю, что это не часть вопроса, но я бы избавился от raw_str и написал бы прямо в ваш CSV. Для большого файла (10000 строк) это сэкономит массу времени.

Вы также можете избавиться от raw_data и просто использовать один для цикла.

...