Как связать связанные слова с интеллектуальным анализом текста в R - PullRequest
0 голосов
/ 01 апреля 2019

У меня есть данные рекламных объявлений, размещенных на бывшем в употреблении сайте по продаже бывших в употреблении смартфонов.Каждое объявление описывает продукт, который продается.Я хочу знать, какие параметры чаще всего описывают продавцы.Например: марка, модель, цвет, объем памяти, ...

С помощью текстового анализа всего текста из рекламных объявлений я хотел бы объединить похожие слова в одну категорию.Например: черный, белый, красный, ... должны быть связаны друг с другом, поскольку все они описывают цвет телефона.

Можно ли это сделать с помощью кластеризации или категоризации, и какие алгоритмы интеллектуального анализа текста оснащены для этого?

1 Ответ

0 голосов
/ 01 апреля 2019

Ваша лучшая попытка - это нечто, основанное на word2vec.

Алгоритмы кластеризации не смогут надежно раскрыть человеческую концепцию цвета. Так что либо вы выбираете какой-то контролируемый подход, либо вам нужно попробовать методы, чтобы сначала понять концепцию внедорожника.

Word2vec обучается заменяемости слов. Так как в предложении типа «мне нравится красный цвет» вы можете заменить красный на другие цвета, word2vec теоретически может помочь найти такие концепции без присмотра, учитывая множество и множество данных. Но я уверен, что вы также можете найти контрпримеры, которые нарушают эти концепции ... Удачи ... Я сомневаюсь, что вам удастся сделать это без присмотра.

...