Обнаружение дублирования в значениях с разделителями в ячейке в Excel - PullRequest
2 голосов
/ 24 сентября 2019

У меня есть некоторые табличные данные следующим образом.

|   | A        | B            | C                | D                                                 |
|---|----------|--------------|------------------|---------------------------------------------------|
|   |          | p1           | p2               | pn                                                |
| 1 | Lanterns | Bruce Wayne  | Jean-Paul Valley | Dick Grayson; Terry McGinnis; Jean-Paul Valley    |
| 2 | Bats     | Alan Scott   | Hal Jordan       | Guy Gardner; John Stewart; Kyle Rayner; Simon Baz |
| 3 | Fates    | Kent Nelson  | Khalid Nassour   | Hector Hall; Khalid Nassour; Khalid Ben-Hassin    |
| 4 | Supes    | Clark Kent   | John Henry Irons | Conner Kent; Hank Henshaw; Kong Kenan             |
| 5 | Spideys  | Peter Parker | Peter Parker     | Ben Reilly; Miles Morales                         |
| 6 | Irons    | Tony Stark   | Happy Hogan      | James Rhodes; Eddie March; James Rhodes           |

Для каждой строки я хочу выяснить, существует ли дублирование между столбцами B, C, а также значениями столбца D., разделенными точкой с запятой.

Как это сделать в Excel?

Желаемый результат будет следующим:

| X | A        | B            | C                | D                                                 | E     |
|---|----------|--------------|------------------|---------------------------------------------------|-------|
|   |          | p1           | p2               | pn                                                |       |
| 1 | Lanterns | Bruce Wayne  | Jean-Paul Valley | Dick Grayson; Terry McGinnis; Jean-Paul Valley    | TRUE  |
| 2 | Bats     | Alan Scott   | Hal Jordan       | Guy Gardner; John Stewart; Kyle Rayner; Simon Baz | FALSE |
| 3 | Fates    | Kent Nelson  | Khalid Nassour   | Hector Hall; Khalid Nassour; Khalid Ben-Hassin    | TRUE  |
| 4 | Supes    | Clark Kent   | John Henry Irons | Conner Kent; Hank Henshaw; Kong Kenan             | FALSE |
| 5 | Spideys  | Peter Parker | Peter Parker     | Ben Reilly; Miles Morales                         | TRUE  |
| 6 | Irons    | Tony Stark   | Happy Hogan      | James Rhodes; Eddie March; James Rhodes           | TRUE  |

Редактировать Произошла ошибка в именах столбцов ввопрос вызывает неясность.Исправлено сейчас.

Обновление

Вот моя попытка использования VBA, предложенная @Foxfire And Burns And Burns.Он адаптирован с https://superuser.com/a/1005497/460054

Public Function HasDuplicates(list As String, delimiter As String) As String
Dim arrSplit As Variant, i As Long, tmpDict As Object, tmpOutput As Boolean
Set tmpDict = CreateObject("Scripting.Dictionary")
arrSplit = Split(list, delimiter)
tmpOutput = False
For i = LBound(arrSplit) To UBound(arrSplit)
    If tmpDict.Exists(Trim(arrSplit(i))) Then
        tmpOutput = True
        Exit For
    Else
    tmpDict.Add Trim(arrSplit(i)), Trim(arrSplit(i))
    End If
Next i
HasDuplicates = tmpOutput
'housekeeping
Set tmpDict = Nothing
End Function

Здесь снова приведены все возможные варианты использования, как это предложено @Foxfire And Burns And Burns.

+---+-----+----+-----------+--------------------+-------+
|   |  A  | B  |     C     |         D          |   E   |
+---+-----+----+-----------+--------------------+-------+
| 1 | A   | B  |           | A; B;              | False |
| 2 | A   |    |           | A; ;               | True  |
| 3 |     |    |           | ; ;                | True  |
| 4 | G   | K  | G         | G; K; G            | True  |
| 5 | N   | M  | O         | N; M; O            | False |
| 6 | N   | N  | O         | N; N; O            | True  |
| 7 | V   | U  | X; Y; X   | V; U; X; Y; X      | True  |
| 8 | P J | VK | P; J; V K | P J; VK; P; J; V K | False |
| 9 | VK  | O  | R; VK     | VK; O; R; VK       | True  |
+---+-----+----+-----------+--------------------+-------+

Формула для столбца D: =CONCATENATE(B2,"; ",C2, "; ",D2) и для Eis =HasDuplicates(E2, ";").

Но здесь он не обрабатывает пустые ячейки.Строки 2 и 3 также должны быть False.

Ответы [ 5 ]

6 голосов
/ 24 сентября 2019

Если у вас O365 или Excel 2016 с функцией TEXTJOIN:

=NOT(ISERROR(FILTERXML("<t><s>" &TEXTJOIN("</s><s>",TRUE,TRIM(B2),TRIM(C2),SUBSTITUTE(TRIM(D2),"; ","</s><s>"))& "</s></t>","//s[.=./following-sibling::*]")))

Если у вас нет TEXTJOIN, но есть FILTERXML, вы можете использовать:

=NOT(ISERROR(FILTERXML("<t><s>"&TRIM(B2)&"</s><s>"&TRIM(C2)&"</s><s>"&SUBSTITUTE(TRIM(D2),"; ","</s><s>")&"</s></t>","//s[.=./following-sibling::*]")))

enter image description here

Мы создаем XML всех имен в отдельных узлах, а затем ищем дубликаты.

Без NOT(ISERROR(…часть, формула будет возвращать имя дубликата (или массив имен, если существует более одного набора дубликатов).

ПРИМЕЧАНИЕ: Формула зависит от разделителя вСтолбец D составляет ; (semicolon-space).Если пробел не всегда будет присутствовать, формуле потребуется модификация, чтобы удалить ее, если она есть (вложенные заменители или TRIM'ы сделают это).

например,

=NOT(ISERROR(FILTERXML("<t><s>"&TRIM(B11)&"</s><s>"&TRIM(C11)&"</s><s>"&SUBSTITUTE(SUBSTITUTE(TRIM(D11),"; ",";"),";","</s><s>")&"</s></t>","//s[.=./following-sibling::*]")))

Результаты второго теста

enter image description here

Если у вас более ранняя версия Excel и вы можете использовать решение VBA, попробуйте:

Option Explicit
Function hasDups(rg As Range, Optional sDelim As String = ";") As Boolean
    Dim myDict As Object
    Dim x, y, s As String, i As Long, c As Range

Set myDict = CreateObject("scripting.dictionary")

For Each c In rg
    x = Split(c.Value2, sDelim)
    For Each y In x
      If Len(Trim(y)) > 0 Then
        If Not myDict.exists(Trim(y)) Then
            myDict.Add Trim(y), y
        Else
            hasDups = True
            Exit Function
        End If
      End If
    Next y
Next c

End Function
4 голосов
/ 24 сентября 2019

Это возможно через формулу, но есть некоторые соображения:

  • Поскольку имена могут быть либо Tony Stark и Anthony Stark, либо Paul Valley и Jean-Paul Valley, которые вы не можете использовать SEARCH
  • Вам нужно объединить три столбца и превратить их в массив
  • Проверить массив на наличие дубликатов (к сожалению, без COUNTIF) с помощью
  • Сравните результат с общим количеством элементов в массиве.

    =SUMPRODUCT(--(FILTERXML("<t><s>"&SUBSTITUTE(SUBSTITUTE(B2&"; "&C2&"; "&D2,"",""),"; ","</s><s>")&"</s></t>","//s")=TRANSPOSE(FILTERXML("<t><s>"&SUBSTITUTE(SUBSTITUTE(B2&"; "&C2&"; "&D2,"",""),"; ","</s><s>")&"</s></t>","//s"))))<>LEN(B2&"; "&C2&"; "&D2)-LEN(SUBSTITUTE(B2&"; "&C2&"; "&D2,";",""))+1
    

Это длинный, но FILTERXML довольно хорошо помещает наши значения в массив, который мы затемможно использовать.

Примечание: Это формула массива, которую необходимо подтвердить с помощью Ctrl Shift Введите

enter image description here

2 голосов
/ 24 сентября 2019

Не могли бы вы попробовать эту формулу

=IFERROR(IF(SEARCH(C1,D1,1)>0,"TRUE"), "FALSE")
2 голосов
/ 24 сентября 2019

Попробуйте эту формулу в ячейке E1 и скопируйте ее:

=IF(ISNUMBER(SEARCH(C1;D1));TRUE;FALSE)

Вам может потребоваться изменить точки с запятой ; на обычные запятые , в зависимости от версии Excel.

РЕДАКТИРОВАТЬ: более простой и элегантный вариант будет

=ISNUMBER(SEARCH(C1;D1))
1 голос
/ 24 сентября 2019

Если ваши значения получили лишние пробелы, возможно, это может помочь добавить функцию TRIM для очистки.

Я получил это:

enter image description here

Столбец E получил следующую формулу:

=IFERROR(SEARCH(TRIM(C1);D1);0)>0

Вывод будет логическим значением TRUE/FALSE На скриншоте это на испанском, но VERDADERO означает TRUE, а FALSO означает FALSE.

В строках 5 и 6 выходные данные FALSE, потому что значения Peter Parker и Happy Hogan не найдены в столбце D. Вы сообщили в желаемом выводе, что эти 2 строки должны возвращать TRUE, но у вас нетобъяснил почему.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...