Как преобразовать текст в целочисленный список как в imdb.pkl - PullRequest
2 голосов
/ 21 апреля 2019

Я подготовил модель для анализа настроений в наборе данных обзора фильмов IMDB.Теперь я хочу протестировать его на пользовательском вводе, т.е. на какой-нибудь строке, например, «Hello».Но я загрузил поезд и тест из файла 'imdb.pkl', который возвращает уже предварительно обработанный текст, который находится в кортеже списка в формате списка целых чисел.Я читал об этом, они говорят, что слова назначаются с целыми числами.Поэтому мой вопрос заключается в том, как мне преобразовать свой пользовательский ввод (или кодировать строку) в этот формат, чтобы я мог использовать его с помощью model.predict (custom_input)?

train, test, _ = imdb.load_data(path='imdb.pkl', n_words=10000)

train
([[17, 25, 10, 406, 26, 14, 56, 61, 62, 323, 4],
  [16, 586, 32, 885, 17, 39, 68, 31, 2994, 2389, 328, 4],
  [1, 2, 1, 139, 6, 130, 1, 5, 6, 25, 105, 4730, 40],
  [30, 287, 142, 2216, 707, 3763, 20, 68, 57, 30, 37, 309, 14, 4],
  [224, 3, 371, 3, 1, 4, 128, 37, 16, 90, 48, 1247, 8, 79, 294, 913, 1709,4],
  [17,
  10,
  2,....]])

type(train)
tuple

type(train[0])
list

type(train[0][0])
list

type(train[0][0][0])
int
...