Как мне построить H2O word2vec training_frame, который различает разные документы / предложения и т. Д.?
Насколько я могу прочитать из очень ограниченной документации, которую я нашел, вы просто предоставляете один длинный список слов? Такие как
'This' 'is' 'the' 'first' 'This' 'is' 'number' 'two'
Однако было бы разумно различать - в идеале что-то вроде этого:
Name | ID
This | 1
is | 1
the | 1
first | 1
This | 2
is | 2
number | 2
two | 2
Возможно ли это?