CountVectorizer в списке целых чисел - PullRequest
0 голосов
/ 09 ноября 2018

У меня есть список целых чисел, как показано ниже:

mylist = [111,113,114,115,112,115,234,643,565,.....]

У меня есть много подобных списков с более чем 500 целыми числами, в которых я хотел запустить CountVectorizer. Насколько я знаю, CountVectorizer только маркирует список строк, чем целые числа.

Я попытался сначала преобразовать каждый элемент этих списков в str через

mylist_string = list(map(lambda x: str(x), mylist)) но так как список слишком длинный, он занимает очень много времени.

Есть ли способ токенизации целочисленных списков или эффективный способ преобразования списка чисел в список строк.

Спасибо

1 Ответ

0 голосов
/ 09 ноября 2018

В вашем случае, избыточно использовать карту с лямбдой, что может быть причиной замедления, Вы можете просто использовать map без лямбды, как показано ниже

mylist = [111,113,114,115,112,115,234,643,565]
mylist_string = map(str, mylist) # use list(map(str, mylist)) for python 3
# ['111', '113', '114', '115', '112', '115', '234', '643', '565']

альтернативно, вы можете попробовать list comprehension

mylist = [111,113,114,115,112,115,234,643,565]
mylist_string = [str(x) for x in mylist]
# ['111', '113', '114', '115', '112', '115', '234', '643', '565']
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...