Я заинтересован в использовании tf-idf с библиотекой FastText, но нашел логический способ обработки нграмм.Я уже использовал tf-idf с векторами SpaCy для того, что нашел несколько примеров, подобных этим:
Но для библиотеки FastText мне это не совсем понятно, поскольку она имеет не очень интуитивную гранулярность, например, EG
Для общего слова 2vecу меня будет один вектор для каждого слова, я могу посчитать частоту этого вектора и соответственно разделить его значение.
Но для fastText одно и то же слово будет иметь несколько n-граммов,
"Слушать последние сводки новостей" будет иметь n-граммы, генерируемые скользящими окнами, например:
lis ist ste ten tot het ...
Эти n-граммы обрабатываются внутри модели, поэтому, когда я пытаюсь:
model["Listen to the latest news summary"]
, я получаю конечный вектор напрямую, отсюда то, что у меня естьхотя нужно разделить текст на n-граммы перед подачей модели, например:
model['lis']
model['ist']
model['ten']
и сделать tf-idf оттуда, но это кажется неэффективным подходом к обоим, есть ли стандартный способ примененияTF-IDF для вектора N-грамм, как это.