Как лучше всего настроить нечеткий поиск в Excel, когда столбцы перепутаны? - PullRequest
0 голосов
/ 31 января 2020

В настоящее время у меня есть две таблицы Excel с данными о теннисных матчах, которые я пытаюсь объединить. Ниже приведен простой фрагмент обеих таблиц:

Table1:

+-----------------------------------+-------------------+---------------------------+------------+
|              NAME_T               |     ID1_NAME      |         ID2_NAME          |  Variable  |
+-----------------------------------+-------------------+---------------------------+------------+
| Brisbane International - Brisbane | Taro Daniel       | John-Patrick Smith        |   0.00249  |
| Brisbane International - Brisbane | Yasutaka Uchiyama | Bjorn Fratangelo          |   0.00210  |
| Qatar ExxonMobil Open - Doha      | Richard Berankis  | Dennis Novak              |   0.00198  |
| Qatar ExxonMobil Open - Doha      | Paolo Lorenzi     | Jabor Mohammed Ali Mutawa |   0.00164  |
+-----------------------------------+-------------------+---------------------------+------------+

Таблица 2:

+----------------+-------------+---------------+-------------+-------------+------------+
| TournamentName | Player1Name |  Player2Name  | Player1Odds | Player2Odds | Similarity |
+----------------+-------------+---------------+-------------+-------------+------------+
| ATP-BRISBANE   | Uchiyama Y. | Fratangelo B. |         2.5 |        1.56 |     0.7353 |
| ATP-DOHA       | Novak D.    | Berankis R.   |        2.13 |        1.75 |     0.7732 |
| ATP-DOHA       | Lorenzi P.  | Al Mutawa J.  |        1.02 |       16.72 |     0.6799 |
| ATP-BRISBANE   | Daniel T.   | Smith J. P.   |        1.72 |        2.19 |     0.7200 |
+----------------+-------------+---------------+-------------+-------------+------------+

Я хочу отобразить данные в таблице 2 на таблицу 1 поэтому в Excel использовали инструмент Fuzzy Logi c и создали пары полей для названия турнира плюс имена P1 / P2. Я получаю следующее:


+-----------------------------------+-------------------+---------------------------+------------+----------------+-------------+---------------+-------------+-------------+------------+
|              NAME_T               |     ID1_NAME      |         ID2_NAME          |  Variable  | TournamentName | Player1Name |  Player2Name  | Player1Odds | Player2Odds | Similarity |
+-----------------------------------+-------------------+---------------------------+------------+----------------+-------------+---------------+-------------+-------------+------------+
| Brisbane International - Brisbane | Taro Daniel       | John-Patrick Smith        |   0.00249  | ATP-BRISBANE   | Daniel T.   | Smith J. P.   |        1.72 |        2.19 |     0.7200 |
| Brisbane International - Brisbane | Yasutaka Uchiyama | Bjorn Fratangelo          |   0.00210  | ATP-BRISBANE   | Uchiyama Y. | Fratangelo B. |         2.5 |        1.56 |     0.7353 |
| Qatar ExxonMobil Open - Doha      | Richard Berankis  | Dennis Novak              |   0.00198  | ATP-DOHA       | Novak D.    | Berankis R.   |        2.13 |        1.75 |     0.7732 |
| Qatar ExxonMobil Open - Doha      | Paolo Lorenzi     | Jabor Mohammed Ali Mutawa |   0.00164  | ATP-DOHA       | Lorenzi P.  | Al Mutawa J.  |        1.02 |       16.72 |     0.6799 |
+-----------------------------------+-------------------+---------------------------+------------+----------------+-------------+---------------+-------------+-------------+------------+

Инструмент отлично работает, и вы можете видеть, что он соответствует строки правильно. Однако вот в чем проблема; Строка 3 - это правильный матч, но игроки и, следовательно, шансы неправильные. Мне нужно иметь возможность определить, когда это так, чтобы я мог переключать данные (возможно, вручную). Я надеялся сделать это, потому что оценки сходства должны быть намного ниже для «переключаемых» строк, однако это не тот случай - действительно самый высокий показатель сходства для строки 3.

Любые предложения по как настроить Fuzzy Lookup, чтобы помочь здесь или даже другой способ сделать это?

...