Я пытаюсь векторизовать фрейм данных панд в отдельные n-граммы символов.Однако есть предостережение: я хочу, чтобы имя столбца было частью последовательности символов.Например, давайте представим, что это необработанные данные:
First Name, Last Name
John, Smith
, и я использую n-граммы символов длиной 3.
Я хочу, чтобы генерировались следующие n-граммы:
"First Name_Joh",
"First Name_ohn",
"Last Name_Smi",
"Last Name_mit",
"Last Name_ith"
, чтобы я мог создать горячее кодирование для этого вектора.Я хочу, чтобы имя столбца было частью последовательности символов n-грамм.Для того, над чем я работаю, я не хочу, чтобы все n-граммы были смешаны вместе.(Извините, если я не использую правильные термины; я не очень хорошо объясняю этот материал.)
^ Я знаю, как это сделать с помощью циклов, неэффективным способом;однако мне нужно, чтобы это было масштабируемым и многократно используемым, поэтому я хочу использовать что-то вроде CountVectorizer от sklearn для этого.Как я могу это сделать?