Программно получать теги (ключевые слова) из заголовков, описаний и связанных элементов - PullRequest
0 голосов
/ 15 августа 2010

Сначала мне нужно программно получить теги (в отличие от того, что здесь делается в stackoverflow) из заголовков и описаний моих сообщений. Я не хочу, чтобы часто используемые слова появлялись в ключевых словах. Есть ли эффективный способ сделать это?

После получения хороших тегов я хотел бы сохранить их в БД MySQL.

Теперь, как мне эффективно получать связанные сообщения, используя эти автоматически созданные теги? Например. Что здесь сделано.

Ответы [ 5 ]

4 голосов
/ 15 августа 2010

Посмотрите вверх tf-idf .Вы ищете термины с высоким показателем tf-idf.

2 голосов
/ 15 августа 2010

Я предполагаю, что онлайн-сервис API может помочь. Проверка:

OpenCalais - попробуйте вставить статью здесь: http://viewer.opencalais.com/

Или API Term Extraction от Yahoo: http://developer.yahoo.com/search/content/V1/termExtraction.html

Надеюсь, это поможет!

2 голосов
/ 15 августа 2010

Я бы не советовал использовать этот метод.Вы можете использовать его, чтобы предложить теги, но автоматическое тегирование будет очень и очень трудно реализовать правильно и точно.

Одна из причин этого в том, что компьютеры не понимают семантику.Возьмите любой вопрос здесь и попробуйте сделать это.Это не будет работать в 95% случаев.

1 голос
/ 16 августа 2010

Я не понимаю, как это было бы возможно, если бы у вас не было какого-то списка ... как ваше приложение узнает, какие слова использовать, а какие нет?Я полагаю, вы могли бы найти тезаурусы, в которых вы могли бы использовать API и использовать их для поиска тегов, это было бы довольно сложно, если вы хотите сделать это по причинам SEO, вы можете заставить приложение искать слова на основе списка ключевых слов.Например, что вы получаете от инструмента подсказки ключевых слов Google.

. Что касается того, как это сделать, я все время использую PHP и считаю, что он отлично подходит для создания веб-приложений, но для такого рода вещей (обработкамного текстовых данных, регулярных выражений и т. д.) У меня, как правило, проблемы в PHP, может быть, это только я, но я предпочитаю использовать perl

0 голосов
/ 20 января 2011

Headup также может помочь с этой задачей (так же, как Open Calais). Вы можете проверить это здесь и посмотреть, работает ли он для вас:

http://labs.headup.com/Services/RealTime/API/EntitiyExtraction/Playground.aspx

При необходимости есть и API.

(Отказ от ответственности: я разработчик @SemantiNet и работаю над этим продуктом ... Мы будем рады помочь).

Удачи!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...