Каков наилучший способ генерировать ключевые слова из данного текста? - PullRequest
2 голосов
/ 27 декабря 2010

Я хочу сгенерировать ключевые слова для своей CMS.

Кто-нибудь знает хороший PHP-скрипт (или что-то еще), который генерирует ключевые слова?

У меня есть такой HTML-сайт: http://pastebin.com/ZU8vdyeP

Ответы [ 3 ]

2 голосов
/ 27 декабря 2010

Это очень сложная проблема для компьютера. Было бы намного проще заставить кого-то (еще?) Сделать это вручную или просто не делать это вообще.

Если вам действительно нужен компьютер для этого, я бы обратился к превосходной библиотеке Python NLTK , в которой есть много инструментов для такого рода вещей (= естественно обработка языка), и с ним очень весело работать.

Например, вы можете рассчитать частотное распределение слов, а затем найти наиболее распространенные гипернимки более крупных (выше 5 символов) слов, которые появляются наиболее часто, и использовать их как подсказку о том, какими могут быть ключевые слова.

Опять же, намного легче сделать это человеком, однако.

1 голос
/ 27 декабря 2010

Если я понимаю проблему, у вас есть текст, и вы хотите определить ключевые слова, наиболее соответствующие тексту.

Три подхода:

1) Пользователь должен ввести ключевые слова

2) Статистический анализ текста, например, определяет слова, которые встречаются в тексте гораздо чаще, чем в языке в целом. Любой хороший текст по поиску информации будет иметь несколько алгоритмов.

3) Если у вас есть набор документов, которые уже классифицированы (возможно, ранее классифицированы людьми), вы можете использовать алгоритм машинного обучения (возможно, байесовский классификатор) для обучения системы классификации новых документов. Если вы позволите пользователям переопределять / исправлять предложенные ключевые слова, система может учиться со временем.

Лично я бы сделал # 3, так как он более адаптивный.

1 голос
/ 27 декабря 2010

для автоматизации, получить слова из статьи, сопоставить их с черным списком и не включать слова до 4 символов.

Дополнительно, пусть пользователь редактирует вручную. Так что автоматизируйте только если нет ключевых слов.

Это можно сделать с помощью триггера или прикладного уровня.

С уважением, / Т

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...