сегодня я использую pandas в качестве основного инструмента предварительной обработки данных в моем проекте, где мне нужно выполнить некоторые преобразования в данных, чтобы убедиться, что они находятся в правильном формате, чего ожидает мой класс python .
Итак, я услышал о TF Tansform и немного его протестировал, но я не увидел очевидного преимущества (очевидно, я имею в виду само преобразование данных, а не конвейер машинного обучения).
Например, я сделал простой код в TFT для прописных букв всех значений в моем столбце данных:
upper = tf.strings.upper(input, encoding='', name=None)
Время выполнения этой функции предварительной обработки: 17.1880068779
Это, с другой стороны, код, который я использую для того же действия в кадре данных:
x = dataset['CITY'].str.upper()
Время выполнения: 0.0188028812408
Итак, я я делаю что-то не так? Я думаю, что если у нас есть десятки преобразований и набор данных, если миллионы строк, возможно, TFT будет лучше в этом сравнении, но для кадра данных в 100 тыс. Это кажется не очень полезным.