Требуются некоторые идеи о создании инструмента, который может сканировать текстовые предложения (написанные на английском языке) и строить рейтинг ключевых слов, основываясь на большинстве вхождений слов или фраз в текстах.
Это было бы очень похоже на тенденции в Твиттере, которые Twitter обнаруживает и сообщает 10 лучших слов в твитах.
Я определил высокоуровневые шаги в алгоритме следующим образом
- Отсканируйте текст и удалите все распространенные, часто встречающиеся слова (например, "the", "is", "are", "what", "at" и т. Д.)
- Добавитьостальные слова в хэш-карту.Если слово уже есть в карте, увеличьте его счетчик.
- Чтобы получить первые 10 слов, выполните итерации по хэш-карте и найдите первые 10 отсчетов.
Шаг 2 и3 просты, но я не знаю на шаге 1, как я могу обнаружить важные слова в тексте и отделить их от общих слов (предлоги, союзы и т. Д.)
Также, если я хочу отслеживать фразы, что может бытьподход ?Например, если у меня есть текст с надписью «Этот мед очень хорош», я мог бы отследить «мед» и «хорошо», но я также могу отследить фразы «очень хорошо» или «мед очень хорош»
Любые предложения будут с благодарностью.
Заранее спасибо