Как я могу очистить данные из файлов .odt с помощью Python? - PullRequest
0 голосов
/ 06 ноября 2019

У меня есть куча файлов .odt (около 2000 файлов), каждый файл содержит клинические данные пациентов онкологического отделения больницы, в которой я работаю. Мне нужно загрузить эти данные в базу данных MySQL. Каждый документ отформатирован совершенно одинаково и выглядит так:

Date dd.mm.yyyy

Mr. XXX YYY        DOB dd.mm.yyyy

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Phasellus ut elit vel tellus vulputate gravida et sit amet neque. Donec pulvinar finibus aliquam. Donec hendrerit vitae ex a sollicitudin. Vestibulum maximus tristique pellentesque. Nullam felis erat, porta ut urna sit amet, mattis ullamcorper turpis. Aliquam erat volutpat. Aenean consequat molestie risus sed blandit. Nullam tristique luctus turpis, quis blandit turpis fringilla vitae. Nulla facilisi. Donec fringilla tristique sapien, et congue enim laoreet tincidunt. Sed vel odio leo. Integer scelerisque pulvinar sem vel maximus. Quisque rutrum, mi in posuere tempus, nunc odio posuere arcu, sed rhoncus urna ante id lorem. Nunc facilisis justo et mattis varius.

Dr. XXX YYY

Я пробовал это: как извлечь данные из файла odt xml в python? и получил файл xml (Мне нужно было только изменить строку fd.write(content) в fd.write(str(content)), чтобы она работала). Как я могу разобрать данные из XML-файла? Должен ли я использовать BeautifulSoup?

...