Есть ли какой-либо инструмент для извлечения ключевых слов из английского текста или статьи в Java? - PullRequest
3 голосов
/ 28 декабря 2010

Я пытаюсь определить тип веб-сайта (на английском языке) по машине. Я пытаюсь загрузить домашнюю страницу веб-сайта, загрузить HTML-страницу, выполнить синтаксический анализ и получить содержимое в Интернете. стр. Например, здесь есть некоторый контекст из CNN.com. Я пытаюсь получить ключевые слова веб-страницы, сопоставляя их с моей базой данных. Если ключевые слова включают как новости, последние новости. Веб-сайт перейдет на новостные сайты. Если есть такие слова, как «здоровый», «медицинский», то это будет медицинский веб-сайт.

Существуют некоторые инструменты, которые могут выполнять сегментацию текста, но не так просто найти инструмент для семантики, такой как онлайн-шоппинг , это ключевые слова, которые не должны проливать два слова. Комбинация будет полезной информацией. Но «oneline», «покупки» будут менее полезны, так как могут существовать онлайн-путешествия ...

• Открытие аэропортов Ньюарка, JFK • 1 взлетно-посадочная полоса открывается в аэропорту Ла Гуардия • Более 4155 рейсов были отменены в понедельник • Полная история

* LaGuardia Airport snowplows busy Video
* Are you stranded? | Airport delays
* Safety tips for winter weather
* Frosty fun Video | Small dog, deep snow

Последние новости

* Easter eggs used to smuggle cocaine
* Salmonella forces cilantro, parsley recall
* Obama's surprising verdict on Vick
* Blue Note baritone Bernie Wilson dead
* Busch aide to 911: She's not waking up
* Girl, 15, last seen working at store in '90
* Teena Marie's death shocks fans
* Terror network 'dismantled' in Morocco
* Saudis: 'Militant' had al Qaeda ties
* Ticker: Gov. blasts Obama 'birthers'
* Game show goof is 800K mistakeVideo
* Chopper saves calf on frozen pondVideo
* Pickpocketing becomes hands-freeVideo
* Chilean miners going to Disney World
* Who's the most intriguing of 2010?
* Natalie Portman is pregnant, engaged
* 'Convert all gifts from aunt'  CNNMoney
* Who controls the thermostat at home?
* This Just In: CNN's news blog

Ответы [ 2 ]

2 голосов
/ 28 декабря 2010

Я понимаю, что в целом вам нужен инструмент для семантической классификации текстовой информации .В этом случае сопоставление текстов с ключевыми словами из базы данных - не лучший способ, поскольку в нем не учитываются многозначность и синонимия слов.Чтобы преодолеть эти ограничения, было изобретено много методов.Наиболее известным является LSA и его потомки, такие как PLSA или RI .

Но ни один из них не решит проблему с терминами из нескольких слов сам по себе.Наиболее строгим способом обработки таких терминов является объединение слов в терминах .То есть замените все вхождения «онлайн-шоппинг» единым каскадным термином «онлайн-шопинг».Да, это займет O (N * M), где N - это количество слов в тексте, а M - это количество многословных терминов, которые нужно обработать, но мой собственный опыт показывает, что это наиболее надежный и эффективный в вычислительном отношении способ (пожалуйста,, сообщите мне, если вы знаете лучший способ).

Если у вас уже есть поток токенов-стеблей, вы также можете использовать какой-нибудь шаблон, соответствующий , чтобы найти последовательности слов, составляющих термин.

Также к вашему сведению : в области обработки естественного языка есть методы, которые могут помочь получить ключевые слова и понятия из самого текста.См. AlchemyAPI , например.

0 голосов
/ 28 декабря 2010

Я пытаюсь получить ключевые слова для веб-сайта.После этого я использую эти слова для составления карт, я могу определить тип веб-сайта.В базе данных есть некоторые слова, такие как: веб-сайт для новостей: новости, последние новости, веб-сайт для покупок: ebay, amazone ....

...