Я не очень разбираюсь в сложном крупномасштабном парсинге в Python, есть ли у вас какие-либо советы или рекомендации о том, как легко анализировать несколько текстовых файлов в разных форматах, объединять их в один файл .csv и, в конечном итоге, вводить их в базу данных?
Пример текстовых файлов:
general.txt (Имя - Отдел (DEPT) Комната № [Возраст]
John Doe -- Management (MANG) 205 [Age: 40]
Equipment: Laptop, Desktop, Printer, Stapler
Experience: Python, Java, HTML
Description: Hardworking, awesome
Mary Smith -- Public Relations (PR) 605 [Age: 24]
Equipment: Mac, PC
Experience: Social Skills
Description: fun to be around
Scott Lee -- Programmer (PG) 403 [Age: 25]
Equipment: Personal Computer
Experience: HTML, CSS, JS
Description: super-hacker
Susan Kim -- Programmer (PG) 504 [Age: 21]
Equipment: Desktop
Experience: Social Skills
Descriptions: fun to be around
Bob Simon -- Programmer (PG) 101 [Age: 29]
Equipment: Pure Brain Power
Experience: C++, C, Java
Description: never comes out of his room
cars.txt (список людей, которым принадлежат машины по их отделу / комнате #)
Programmer: PG 403, PG 101
Management: MANG 205
house.txt
Programmer: PG 504
Конечный csv предпочтительно табулировать примерно так:
Name | Division | Division Abbrevation | Equipment | Room | Age | Car? | House? |
Scott Lee Programming PG PC 403 25 YES NO
Mary Smith Public Rel. PR Mac, PC 605 24 NO NO
Конечная цель - создать базу данных, в которой при поиске "PR" будет возвращаться каждая строка, в которой для отдела указан "PR" и т. Д. Всего может быть 30 текстовых файлов, каждый из которых представляет один или несколько столбцов в базе данных. Некоторые столбцы представляют собой короткие абзацы, которые включают запятые. Всего около 10000 строк. Я знаю, что Python встроил CSV, но я не уверен, с чего начать, и как закончить только с 1 CSV. Любая помощь?