Я просто изучаю Python, и, как все знают, лучший способ - это практика;)
И теперь у меня есть работа, и я хочу попробовать сделать это на python, но мне нужен совет.
Ну ... у меня есть несколько файлов CSV. Структура выглядит так:
1-й CVS
workerID, workerName, workerPhoneNumber
2-й и другие CSV содержат подмножество этого первого набора.
Я имею в виду, что в первом файле, например, 10 000 сотрудников, и в каждом из них есть раздел с теми же сотрудниками.
Например:
в первом файле у меня
00001 Randal 555555
00002 Tom 66666
00003 Anthony 77775
00004 Mark 3424435
00005 Anna 3443223
00006 Monica 412415415
.....
во втором файле:
00001 Randal 555555
00004 Mark 3424435
00006 Monica 412415415
....
и 3-й файл:
00001 Randal 555555
00004 Mark 3424435
00005 Anna 3443223
....
Я должен проверить достоверность всех пользователей во всех файлах. Я имею в виду: проверьте, чем у Анны, что все файлы имеют одинаковый идентификатор и телефон в других файлах и одинаковы для всех результатов (это огромные 100k строк файла). Тогда я верну все несоответствия.
Проблема сложения заключается в некотором «NA» в строках.
Я только что закончил учебник, но не знаю, как его укусить. Я даже не знаю, что это хорошая практика, чтобы использовать NumPy. Поэтому мне нужен ваш совет ... как я могу справиться с этой проблемой?
РЕДАКТИРОВАТЬ: рабочие имеют уникальные имена :) Его случайная строка на самом деле не имя: D просто пример: D в идентификаторах одного файла тоже уникально