У меня есть 2 набора данных.
Пример набора данных 1:
id | model | first_name | last_name
-----------------------------------------------------------
1234 | 32 | 456765 | [456700,987565]
-----------------------------------------------------------
4539 | 20 | 123211 | [893456,123456]
-----------------------------------------------------------
Иногда один из столбцов first_name и last_name пуст.
Пример набора данных 2:
number | matricule | name | model
----------------------------------------------------------
AA | 0009 | 456765 | 32
----------------------------------------------------------
AA | 0009 | 893456 | 32
----------------------------------------------------------
AA | 0009 | 456700 | 32
----------------------------------------------------------
AA | 0008 | 456700 | 32
----------------------------------------------------------
AA | 0008 | 987565 | 32
Для одного matricule
мы можем найти больше name
и model
, как в моем примере чуть выше. Что я должен сделать:
Для каждой строки из набора данных 1, я беру 3 столбца: модель, имя_символа и фамилия и ищу их в наборе данных 2, если они существуют / совпадают в соответствии с элементами matricule.
Я должен сравнить:
модель по модели ==> если модель (набор данных 1) существует в модели (набор данных 2) ==> соответствует
если first_name существует в name ==> нет совпадений. Если first_name не существует в name ==> match
, если last_name существует в name ==> match. Когда у меня есть два значения last_name, оба должны существовать в имени набора данных 2 для сопоставления.
Пример:
Строки 1 из набора данных 1:
id | model | first_name | last_name
------------------------------------------------------
1234 | 32 | 456765 | [456700,987565]
Для matricule 0009 в наборе данных 2 у меня есть:
number | matricule | name | model
----------------------------------------------------------
AA | 0009 | 456765 | 32
----------------------------------------------------------
AA | 0009 | 893456 | 32
----------------------------------------------------------
AA | 0009 | 456700 | 32
Итак:
first_name (456765) существует в имени набора данных 2, когда matriule = 0009 = => нет соответствия
last_name, существует только 456700 ==> нет соответствия
модель (32) существует в модели набора данных 2 ==> соответствует
Итак, я пропустите матрицу 0009. И перейдите к сравнению второй строки в наборе данных 1 с элементами матрицы 0008.
Для матрицы 0008 в наборе данных 2 у меня есть:
----------------------------------------------------------
AA | 0008 | 456700 | 32
----------------------------------------------------------
AA | 0008 | 987565 | 32
Всегда находимся в первые строки набора данных 1:
first_name (456765) не существует в имени набора данных 2, когда matricule = 0008 ==> match
last_name, оба значения существуют в имени набора данных 2, когда matricule = 0008, ==> соответствует
модель существует в модели набора данных 2, когда matricule = 0008 ==> соответствует
Wh Common crawl ru Я нахожу все совпадения, я создаю новый набор данных, содержащий:
number | id | matricule
-----------------------------------
AA | 1234 | 0008
-----------------------------------
Я надеюсь, что я был чист. Кто-нибудь может помочь мне, пожалуйста.