Позвольте мне постараться объяснить, насколько я могу, поскольку я не волшебник Python. Я прочитал с PyPDF2 таблицу данных PDF о covid-19 в Мексике и разложил ее по токенам - длинная история, я попытался сделать это с помощью tabula, но не получил ожидаемый формат, и я собирался потратить больше времени на переформатирование документа CSV Я вернулся, чем анализировал его, и получил список строк с len 16792, и это нормально.
Теперь проблема, с которой я сталкиваюсь, заключается в том, что мне нужно отформатировать ее соответствующим образом, объединяя некоторые (не все) из этих строк вместе, чтобы я мог создать список списков одинаковой длины, равной 9 колонны.
Это пример того, как это выглядит сейчас, столбцы: Номер дела, Штат, Местность, Пол, Возраст, Дата появления симптомов, Статус, Тип заражения, Дата прибытия в Мексику:
['1', 'PUEBLA', 'PUEBLA', 'M', '49', '15/03/2020', 'Sospechoso', 'Contacto', 'NA', '2', 'GUERRERO', 'ZONA', 'NORTE', 'M', '29', '15/03/2020', 'Sospechoso', 'Contacto', 'NA', '3', 'BAJA', 'CALIFORNIA', 'TIJUANA', 'F', '34', '14/03/2020', 'Sospechoso', 'Estados', 'Unidos', '08/03/2020', '4', 'CIUDAD', 'DE', 'MÉXICO', 'TLALPAN', 'F', '69', '25/02/2020', 'Sospechoso', 'Italia', '03/03/2020', '5', 'JALISCO', 'CENTRO', 'GUADALAJARA', 'M', '19', '18/03/2020', 'Sospechoso', 'España', '17/03/2020'
Я хотел бы получить определенные строки, такие как 'ZONA', 'NORTE' как 'ZONA NORTE' или 'CIUDAD', 'DE', 'MEXICO' как 'CIUDAD DE MEXICO' или 'ESTADOS ',' UNIDOS 'как' ESTADOS UNIDOS '...
Я серьезно не знаю, как с этим справиться. Я пытался, split (), replace (), пытался найти индекс каждой частоты, прочитал все вопросы о работе со списками, перепробовал почти все предоставленные ответы ... и не смог этого сделать.
Любое руководство, будет принята с благодарностью. Извините, если это очень простой вопрос, но я знаю, что должен быть способ, я просто не знаю его.