Как автоматически сгенерировать одно или два слова для представления темы? - PullRequest
1 голос
/ 14 мая 2019

Маллет создает темы с ключевыми словами.Ключевые слова являются уникальными для одной темы.Существует ли автоматический способ выбрать определенное слово или несколько слов из ключевых слов темы в качестве метки темы.Например, 20 тем генерируются из 500 статей.Каждая тема содержит 20 слов.Одной из тем является:

идентификатор темы 12, вес 0,05879, (ключевые слова) нефть энергия газ электроэнергия вода электричество атомная промышленность море климат цены цены уголь углерод выбросы год топливо экологические зеленые годы

Кажется, у меня могут быть разные интерпретации темы.Например,

  1. проблемы с энергией от сжигания газа, нефти или топлива
  2. производство электроэнергии для защиты окружающей среды
  3. изменение цен на нефть из-за изменения климата
  4. выбросы углерода вызывают проблемы с окружающей средой
  5. ...

Одним словом можно обозначить: энергия, окружающая среда, нефть, выбросы углерода, экологически чистая энергия ...

Есть ли способ генерировать только одно или два слова для представления этой темы вместо субъективного и произвольного объединения этих слов?

Кажется, наиболее важные слова определяются частотой терминов в алгоритме ключевых слов.Маллет генерирует уникальные слова для каждой темы.

Мой вопрос: есть ли способ автоматически выбрать одно наиболее представительное слово или два слова в качестве метки темы?

Я новичок в моделировании темы, вы мне поможете?

Спасибо

1 Ответ

1 голос
/ 15 мая 2019

Существуют методы для автоматической маркировки тем, но я лично считаю, что они недостаточно надежны, чтобы не вводить в заблуждение.Как вы заметили, часто существует довольно много способов описать семантическое содержание, идентифицированное темой, и многие темы не могут быть легко преобразованы в одно ключевое слово или фразу.

На практике автоматически извлекаемые темычасто объединяют несколько смежных тем (углеводородная промышленность и изменение климата здесь) или представляют конкретные аспекты более крупных тем (например, могут быть две темы с большим количеством слов об образовании и классах, но одна - только студенты, а другая - k-12).Часто трудно понять, о чем действительно «тема», не читая документы, которые широко представлены в этой теме.

Для многих случаев есть довольно очевидный «тег» (например, «масло» вв этом случае), но если вы намекаете пользователям, что тема представляет собой определенную концепцию, вы почти наверняка найдете случаи, когда это не совсем правильное значение.

...