Извлечение ключевых слов из текста для SEO с использованием C # или SQL - PullRequest
2 голосов
/ 13 февраля 2011

Я ищу хороший метод для извлечения соответствующих ключевых слов из текста на странице с использованием SQL или C #.Я намерен использовать это, чтобы связать эти ключевые слова с другими частями веб-сайта для перехода к релевантному контенту. Это кажется довольно распространенным явлением в некоторых блогах.

Ответы [ 2 ]

2 голосов
/ 13 февраля 2011

Один простой подход может заключаться в загрузке в память с использованием C #, отфильтровывать теги HTML, Javascript и т. Д. (Т. Е. Идентифицировать реальный контент), разбивать его на отдельные слова, фильтровать список слов, которые появляются с высокой частотойлюбой общий письменный документ, подсчитайте частоту каждого слова, встречающегося в документе, примите слова, которые наиболее часто встречаются в качестве ключевых слов.

Вам потребуется со временем составить отфильтрованный список слов.

В зависимости от вашего домена может быть более уместным пойти по этому пути противоположным образом и составить список ключевых слов, относящихся к домену (или групп ключевых слов, чтобы «ремень безопасности» и «ремень безопасности» и т. Д. Были бы распознаны как одно и то же слово.), и найдите, сколько раз каждое слово или группа слов появляется в данном документе.Те, кто выше определенного порога, или топ-5 или что-то, будут ключевыми словами, связанными с этим документом.

0 голосов
/ 25 февраля 2012

Есть хороший информативный ответ от Джозефа Туриана на более общую версию этого вопроса: Как извлечь ключевые слова, используемые в тексте?

...