Никто другой не может определить лучший способ размещения вашего набора данных.Это решение может принять только тот, кто хорошо понимает цель и набор данных.ϕ (x) - ваш вектор признаков - всегда очень специфичен для ваших данных.
Например, если у вас есть ДНК, у вас могут быть признаки того, присутствует ли определенный кодон, или корзины для количества аденина и т. д.Это очень субъективно, и даже при хорошем понимании настройка является нетривиальной задачей.
Вы должны быть очень осторожны, потому что вы можете создать искажения в ваших данных для определенных классов определенной длины, количестваопределенных аминокислот и т. д., которые не являются действительно репрезентативными для того, что вы классифицируете, если вы генерируете вектор признаков неправильно.Это может привести к ошибкам тестирования и обучения, которые вводят в заблуждение и дают неверные выводы.
Честность, если вы учитесь в университете, я бы порекомендовал пригласить кого-то на факультет компьютерных наук или другой аналог, чтобы помочь внести свой вклад в ваш проект.Хотя может показаться заманчивым использовать предварительно запеченную кодировку sklearn, это не очень хорошее решение для вашего случая.Весьма вероятно, что у вас будут выбросы с точки зрения длины последовательности из-за ограниченного количества данных, и попытка превратить каждый символ в его собственную функцию приведет к низкой производительности в отношении подгонки.
Что касается фактического чтения ваших данных в python, то это csv, так что вы можете анализировать его вручную с помощью open () и split (','), или вы можете использовать некоторые популярные библиотеки для анализа csv.форматы.YMMV