У меня есть CSV-файл с двумя столбцами:
cat @ c a t
dog @ d o g
bat @ b a t
Чтобы упростить общение, я использовал английские буквы для этого примера, но я имею дело с CJK в UTF-8.
Я хотел бы удалить любой символ, появляющийся во втором столбце, который появляется в менее чем 20 строках в первом столбце (символы могут быть любыми, от цифр, букв до китайских символов и знаков препинания, но не пробелы).
Например, если «о» появляется в 15 строках в первом столбце, все вхождения «о» удаляются из второго столбца.Если в первом столбце отображается 35 символов «а», изменения не вносятся.
- Первый столбец изменять нельзя.
- Мне не нужно считать несколько появленийбуквы в одну строку.Например, у «робота» есть 2 o, но эта деталь не важна, только то, что у «робота» есть «o», так что это считается одной строкой.
Как я могу удалить символыкоторые появляются менее чем в 20 раз?