Я использую openpyxl для загрузки файла Excel прямо в память.Например,
from openpyxl import load_workbook
trainingFile = './InputForTraining/1.labelled.Data.V2.xlsx'
trainingSheet = 'sheet1'
TrainingFile = load_workbook(trainingFile)
sheet = TrainingFile[trainingSheet]
Тогда вам не нужно конвертировать Excel в CSV.Иногда, если структура данных очень сложна, преобразование не так просто.Вам все еще нужно написать некоторый код для формирования структуры.Разделить предложение довольно просто, если ваше предложение достаточно чистое.В Python есть функция split (), которая разбивает вашу строку на список слов на основе пробела.Например,
wordsList = yourString.split()
Но вы должны быть осторожны с пунктуацией.Это обычно следует сразу после слова.Вы можете использовать regEx, чтобы разделить пунктуацию на слово.Например,
pat = re.compile(r"([.,;:()/&])")
return_text = pat.sub(" \\1 ", return_text)
wordList = return_text.split()
Итак, [.,;: () / &] Будет отделяться от слова.Или, может быть, вы можете просто удалить пунктуацию из предложений, если они вам вообще не нужны.И заменить их как пространство.Например,
return_text = re.sub("[^a-zA-Z\s1234567890]+", ' ', text).strip().rstrip()
Тогда останутся только буквы и цифры..strip (). rstrip () удаляет лишние пробелы.