Использовал сайт почти для всех моих академических c и профессиональных профессий, но впервые писал.
Я разбираюсь с некоторыми домашними проектами и смотрю, как их использовать python, чтобы убрать переменную информацию из документа о взаимодействии с клиентами / соглашения, чтобы начать, а затем использовать в автоматизированном c производстве документов. Идея состоит в том, чтобы удалить задание администратора, когда кто-то просматривает и повторно вводит данные, полученные от нового клиента.
Например, текст, который мы можем получать, может быть:
Соглашение с клиентом
Имя клиента: Джон Смит Дата соглашения: 03/05/2020
Цена (в час): Менеджер продукта £ 150 Разработчик £ 170 Аналитик данных £ 200 Менеджер аккаунта £ 80 *
Во время наших рабочих отношений вашей главной точкой контакта будет Салли Хорн. Мы свяжемся с вами по электронной почте: j. smith@fake-email.com, и в письменном виде мы будем использовать ваш адрес, указанный в списке: 123 Home Le Street Townington County AB1 9HH
Lorem ipsum dolor sit amet, consitteur adipiscing elit. Проин ид. Praesent justo lectus, ultricies vel nun c eu, ulliccorin ullamcorper metus. Вивамус а c аликет элит. В ullamcorper sollicitudin ante et viverra. Suspendisse viverra a nisi ut dignissim. Pellentesque a c pellentesque enim. Монахиня c Дигниссим Фелис в Эрате Семпер Луктус. Готово c ne c тристик лорем. Etiam iaculis accumsan massa, non tempus turpis pharetra a c. Mauris turpis turpis, finibus ne c mi non, finibus pharetra diam.
Мне удобно получать текст из документа, используя мамонта, то есть
import mammoth
global raw_text
with open("test.docx", "rb") as docx_file:
result = mammoth.extract_raw_text(docx_file)
raw_text = result.value
Это тогда лучший способ приблизиться к достижению цели: отсеять такие вещи, как ценообразование для каждой роли, имена клиентов, используемые адреса и т. д. c.
Я много покопался и нашел множество различных подходов Я мог бы продолжить! Помощь будет принята с благодарностью!
Спасибо