У нас есть файл Excel с рабочим листом, содержащим записи о людях.
1. Номер телефона Санитария
Одним из полей является поле номера телефона, которое содержит номера телефонов в формате, например ::
+XX(Y)ZZZZ-ZZZZ
(где X, Y и Z - целые числа).
Есть также некоторые записи, которые имеют меньше цифр, например ::
+XX(Y)ZZZ-ZZZZ
И другие с действительно испорченными форматами:
+XX(Y)ZZZZ-ZZZZ / ZZZZ
или
ZZZZZZZZ
Нам нужно очистить их все в формате:
0YZZZZZZZZ (or OYZZZZZZ with those with less digits).
2. Заполните данные супервизора
У каждого человека также есть руководитель, которому присваивается числовой идентификатор. Нам нужно выполнить поиск, чтобы получить имя и адрес электронной почты этого руководителя и добавить его в строку.
Этот поиск будет сначала на том же листе (то есть самом поиске), а затем он может вернуться к другой книге с большим количеством людей.
3. Подход
Что касается первой проблемы, я думал о том, чтобы как-то использовать регулярные выражения в Excel / VBA для анализа. Мой Excel-фу не самый лучший, но я полагаю, что могу научиться ... лол. Есть какие-то особые моменты на этом?
Однако лучше ли мне экспортировать XLS в CSV (например, используя xlrd), а затем использовать Python для исправления телефонных номеров?
Что касается второго подхода, я думал о том, чтобы просто использовать vlookups в Excel, чтобы извлечь данные и каким-то образом заставить их провалиться, сначала при поиске, затем во внешней книге, а затем просто вставив текст ошибки. Не уверен, как сделать эту последнюю часть.
Однако, если мне удастся выбрать экспорт в CSV и сделать это на Python, каков эффективный способ сделать vlookup? (Должен ли я перейти к диктовке или просто повторить? Или есть лучший или более идиоматический способ?)
Ура,
Victor