Как объединить несколько слов в DFM? - PullRequest
1 голос
/ 22 сентября 2019

Я создал корпус из 233 строк и 3 столбцов (Дата, Заголовок, Статья), где последний столбец, Статья , является текстом (поэтому у меня 233 текста).Конечная цель - применить тематические модели, и для этого мне нужно конвертировать мой корпус в dfm .Тем не менее я хотел бы сначала объединить слова в биграммы и триграммы, чтобы сделать анализ более строгим. tokens_compound , я вынужден токенизировать корпус , и при этом я теряю структуру (233 на 4), которая имеет решающее значение для применения тематических моделей.Фактически, как только я применяю эти функции, я просто получаю один ряд биграмм и триграмм, который для меня бесполезен.

Поэтому мой вопрос: знаете ли вы какой-либо другой способ поиска биграмм и триграмм в dfm?без обязательного токенизации корпуса?

Или, другими словами, что вы обычно делаете, чтобы искать мультислов в dfm?

Большое спасибо за ваше время!

...