Я работаю с двумя наборами данных:
В наборе 1 содержится 500 элементов в одном столбце (все строки) В наборе 2 содержится 30 000 членов в двух столбцах (с разделителями табуляции), где столбец 1 представляет собой числовой идентификаторчисло и столбец 2 - это список строк с разделителями (10 000 возможных).
Мне нужно найти в столбце 2 набора 2 строки в наборе 1 и пометить (или изолировать) все строки в наборе 2по крайней мере, 1 матч.Хиты также должны быть очень конкретными (то есть я хочу взять «У Джейка есть теннисный мяч», а не «Мне нравится, что у Джейка есть сумка для теннисного мяча»).Если это поможет, я могу выяснить все строки, которые мне нужно специально избегать.
Я начал в Excel ("if (isnumber (search (")), но обнаружил, что существует ограничение на числоВложенные, если можно делать заявления. У меня также был некоторый успех с использованием grep, но я понял, что это отдельные линии, которых мне особенно нужно избегать (строки типа «Мне нравится, что у Джейка есть сумка для тенниса»).
Я начинаю думать, что Python - это путь, но я не уверен, как его кодировать. У кого-нибудь еще есть какие-либо предложения?
вот пример из набора 2 (идентификатор подделан длязащитить анонимность), чтобы дать лучшее представление о том, с чем я работаю:
1230 DEVELOPMENTAL DELAY, LANGUAGE DELAY, MOTOR DELAY
2257 MULTIPLE CONGENITAL ANOMALIES
2344 MICROCEPHALY, AUTISM SPECTRUM DISORDER, SHORT STATURE
3342 DEVELOPMENTAL DELAY, SEIZURE DISORDER, ATAXIA
7651 CONGENITAL ANOMALY, UNSPECIFIED
7869 FAMILY HISTORY OF AUTISM SPECTRUM DISORDER
В этом сценарии я буду искать термин «расстройство спектра аутизма», и я хочу идентификатор 2344, но не идентификатор 7869.
Спасибо за помощь!