Я пытаюсь понять, как подготовить абзацы для векторизации ELMo.
В документах показано только, как встраивать несколько предложений / слов одновременно.
например.
sentences = [["the", "cat", "is", "on", "the", "mat"],
["dogs", "are", "in", "the", "fog", ""]]
elmo(
inputs={
"tokens": sentences,
"sequence_len": [6, 5]
},
signature="tokens",
as_dict=True
)["elmo"]
Как я понимаю, это вернет 2 вектора, каждый из которых представляет данное предложение.Как мне подготовить входные данные для векторизации целого абзаца, содержащего несколько предложений.Обратите внимание, что я хотел бы использовать свою собственную предварительную обработку.
Можно ли это сделать так?
sentences = [["<s>" "the", "cat", "is", "on", "the", "mat", ".", "</s>",
"<s>", "dogs", "are", "in", "the", "fog", ".", "</s>"]]
или, может быть, так?
sentences = [["the", "cat", "is", "on", "the", "mat", ".",
"dogs", "are", "in", "the", "fog", "."]]