Как построить проппер H2O word2vec training_frame - PullRequest
0 голосов
/ 11 января 2019

Как мне построить H2O word2vec training_frame, который различает разные документы / предложения и т. Д.?

Насколько я могу прочитать из очень ограниченной документации, которую я нашел, вы просто предоставляете один длинный список слов? Такие как

'This' 'is' 'the' 'first' 'This' 'is' 'number' 'two'

Однако было бы разумно различать - в идеале что-то вроде этого:

Name   | ID
This   | 1
is     | 1
the    | 1
first  | 1
This   | 2
is     | 2
number | 2
two    | 2

Возможно ли это?

1 Ответ

0 голосов
/ 13 января 2019

word2vec - это тип обучения без учителя: он превращает строковые данные в числа. Таким образом, чтобы выполнить классификацию, вам нужно выполнить двухэтапный процесс:

  • word2vec для строк в числах
  • любая контролируемая методика обучения для номеров по категориям

Документация содержит ссылки на пример классификации в каждом из R и Python . В этом руководстве показан тот же процесс в другом наборе данных (и должно быть видео H2O World 2017, которое сопровождает это).

Кстати, в своем первоначальном примере вы не просто предоставляете слова; предложения разделены NA. Если вы дадите h2o.tokenize () вектор предложений, он создаст этот формат для вас. Таким образом, ваш пример будет на самом деле:

'Это' 'является' '' первым 'NA' Это '' является '' числом '' два '

...