Как получить контекст из (одного) предложения? - PullRequest
0 голосов
/ 27 марта 2019

Я довольно новичок в NLP,

Я хочу реализовать алгоритм кластеризации на основе Python, он будет иметь:

  • Извлечение контекста / темы - ИзЗаголовок (вероятно, будет содержать не более 6-7 слов)

  • Алгоритм кластеризации

Так что проблема в том, что у меня есть кучаутверждений (20 утверждений * 5-6 слов на утверждение = 100-120 слов), связанных с заголовком.И алгоритм должен быть в состоянии их кластеризовать.

Для (1) - В качестве входных данных сначала у меня будет заголовок, из этого заголовка я хочу извлечь различные темы, например:

НАЗВАНИЕ: «Проблема в производственной сборочной линии» - Из этого я хочу извлечь что-то вроде

1.Механические проблемы

2.Проблемы с электричеством

3.Линейный менеджмент

4.Проблемы управления цепями поставок ......

И используйте эти извлеченные темы для объединения этих утверждений.Я могу выполнить вторую задачу кластеризации, но как извлечь темы из одного оператора, который содержит не более 6-7 слов?

Язык: Английский

Есть идеи, как решить первую проблему?

1 Ответ

1 голос
/ 27 марта 2019

Ну, короткая версия - вам нужно больше данных.Вы можете создать тематическую модель (я бы порекомендовал изучить LDA - вероятно, руководствуясь LDA), но вам определенно понадобится больше ... ну всего.Во-первых, 6 различных документов далеко не достаточно.Во-вторых, 6 слов / документ тоже не достаточно.Есть ли какие-либо причины, по которым вы хотите извлечь тему из заголовка, а не из полного документа - потому что по крайней мере в полном документе будет больше слов?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...