Одно горячее кодирование последовательности белка в питоне - PullRequest
0 голосов
/ 25 сентября 2019

введите описание изображения здесь

Мне нужно использовать последовательности в качестве обучающих данных и столбец вывода в качестве метки.но прежде чем я должен применить одно горячее кодирование к последовательностям, как вы можете видеть, последовательности различаются по длине. Подскажите, пожалуйста, как применить одно горячее кодирование ко всем аминокислотам, чтобы присвоить разные целочисленные значения

1 Ответ

0 голосов
/ 25 сентября 2019

Никто другой не может определить лучший способ размещения вашего набора данных.Это решение может принять только тот, кто хорошо понимает цель и набор данных.ϕ (x) - ваш вектор признаков - всегда очень специфичен для ваших данных.

Например, если у вас есть ДНК, у вас могут быть признаки того, присутствует ли определенный кодон, или корзины для количества аденина и т. д.Это очень субъективно, и даже при хорошем понимании настройка является нетривиальной задачей.

Вы должны быть очень осторожны, потому что вы можете создать искажения в ваших данных для определенных классов определенной длины, количестваопределенных аминокислот и т. д., которые не являются действительно репрезентативными для того, что вы классифицируете, если вы генерируете вектор признаков неправильно.Это может привести к ошибкам тестирования и обучения, которые вводят в заблуждение и дают неверные выводы.

Честность, если вы учитесь в университете, я бы порекомендовал пригласить кого-то на факультет компьютерных наук или другой аналог, чтобы помочь внести свой вклад в ваш проект.Хотя может показаться заманчивым использовать предварительно запеченную кодировку sklearn, это не очень хорошее решение для вашего случая.Весьма вероятно, что у вас будут выбросы с точки зрения длины последовательности из-за ограниченного количества данных, и попытка превратить каждый символ в его собственную функцию приведет к низкой производительности в отношении подгонки.

Что касается фактического чтения ваших данных в python, то это csv, так что вы можете анализировать его вручную с помощью open () и split (','), или вы можете использовать некоторые популярные библиотеки для анализа csv.форматы.YMMV

...