Мне нужно иметь возможность вычислять попарно пересечение списков, близких к 40К. В частности, я хочу знать, могу ли я сохранить идентификатор вектора в виде столбца 1 и список его значений в столбце 2. Я должен быть в состоянии обработать этот столбец 2, ie найти перекрытия / пересечения между двумя строками.
column 1 column 2
idA 1,2,5,9,10
idB 5,9,25
idC 2,25,67
Я хочу иметь возможность получить значения парных пересечений, а также, если значения в столбце 2 еще не отсортированы, это также должно быть возможно.
Какова лучшая структура данных, которую я можно использовать, если я иду с R? Мои данные изначально выглядят так:
column1 1 2 3 9 10 25 67 5
idA 1 1 0 1 1 0 0 1
idB 0 0 0 1 0 1 0 1
idC 0 1 0 0 0 1 1 0
отредактировано, чтобы включить больше ясности в соответствии с предложениями ниже.