Совпадение нескольких букв в строках - PullRequest
0 голосов
/ 26 марта 2019

Я хочу проанализировать свой набор данных определенным образом, но, к сожалению, несмотря на то, что трачу много времени на R, я не мог понять, как выполнить задачу.Ниже я хочу сделать следующее:

Имя набора данных: Proteome (этот набор данных имеет тысячи строк и 14 столбцов: ниже я показываю только четыре записи в столбце 5)

Row 1, column 5: GHFCLKPGCNFHAESTRGYR
Row 2, column 5: FCLKPGCNFHAESTRGYR
Row 3, column 5: GHFCLKPGCNFHAESTR
Row 4: column 5: GCNFHAESTR

Встрока 2, первые две буквы строки 1 отсутствуют;в строке 3 последние три буквы строки 1 отсутствуют;в строке 4 отсутствуют первые семь и последние три буквы строки 1.

Строки 2, 3 и 4 отражают артефакты научного метода, который я использовал для генерации данных, и поэтому я хочу удалить эти записи.

В идеале, я хочу, чтобы R возвращал мне верхнюю запись, но было бы хорошо, если бы R мог свернуть только такие строки в одну строку.Моя идея состоит в том, чтобы свернуть несколько строк в одну, если пять последовательных букв в этих строках совпадают друг с другом.В приведенном выше примере GCNFHAESTR совпадает во всех четырех строках, поэтому я хочу, чтобы R возвращал мне только одну строку, в идеале верхнюю.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...