Я хочу проанализировать свой набор данных определенным образом, но, к сожалению, несмотря на то, что трачу много времени на R, я не мог понять, как выполнить задачу.Ниже я хочу сделать следующее:
Имя набора данных: Proteome (этот набор данных имеет тысячи строк и 14 столбцов: ниже я показываю только четыре записи в столбце 5)
Row 1, column 5: GHFCLKPGCNFHAESTRGYR
Row 2, column 5: FCLKPGCNFHAESTRGYR
Row 3, column 5: GHFCLKPGCNFHAESTR
Row 4: column 5: GCNFHAESTR
Встрока 2, первые две буквы строки 1 отсутствуют;в строке 3 последние три буквы строки 1 отсутствуют;в строке 4 отсутствуют первые семь и последние три буквы строки 1.
Строки 2, 3 и 4 отражают артефакты научного метода, который я использовал для генерации данных, и поэтому я хочу удалить эти записи.
В идеале, я хочу, чтобы R возвращал мне верхнюю запись, но было бы хорошо, если бы R мог свернуть только такие строки в одну строку.Моя идея состоит в том, чтобы свернуть несколько строк в одну, если пять последовательных букв в этих строках совпадают друг с другом.В приведенном выше примере GCNFHAESTR совпадает во всех четырех строках, поэтому я хочу, чтобы R возвращал мне только одну строку, в идеале верхнюю.