Какую платформу / инструмент / программное обеспечение / язык я должен использовать для анализа текста? - PullRequest
0 голосов
/ 05 января 2012

Я новичок в области интеллектуального анализа текста. Мне нужно выполнить работу над сходством документов. Я стремлюсь сравнить два документа, а затем обеспечить сходство между ними с точки зрения числа. Я прочитал много теории об этом. Я планирую начать с косинуса сходства

Может кто-нибудь из вас помочь мне с этими основными вопросами: 1. Какая платформа? (Windows / Linux) 2. Какой инструмент (люди говорят о weka / mahout / hadoop) - я понятия не имею, что использовать 3. На каком языке? Некоторые вопросы могут показаться абсурдными, но я должен начать с нуля, и мне нужна помощь

Ответы [ 3 ]

2 голосов
/ 05 января 2012

Для программного обеспечения я настоятельно рекомендую RapidMiner, который вы можете получить с http://rapid -i.com .Несколько быстрых плюсов:

  • Открытый исходный код, реализованный на Java (работает на любой платформе)
  • Интуитивно понятный графический "операторский конвейер" для сотен задач интеллектуального анализа данных
  • Отличноподдержка текстового майнинга.Посмотрите этот видеоурок

По моему опыту, интеллектуальный анализ данных требует некоторой реальной дисциплины для достижения желаемых результатов.RapidMiner должен помочь.

1 голос
/ 20 января 2012

Платформа - Linux (в основном предпочтительнее)

Инструмент - Открыть NLP, Lucene, Solr (Text-Search), Mahout, Matlab TMG (не для продвинутого уровня)

Язык - R (Я предпочту), Python + SciPy

1 голос
/ 11 января 2012

Сходство документов, как в контексте текстового поиска ? Тогда Solr будет отвечать всем требованиям. Это корпоративная поисковая платформа с открытым исходным кодом, обладающая всеми функциями, необходимыми для текстового поиска, включая «, более похожий на этот », который может извлекать n документов, похожих по тексту.

Пара соответствующих функций, которые могут вас заинтересовать:

  1. его можно легко развернуть в виде веб-приложения Java на Tomcat, если установка Hadoop вас пугает.
  2. аспекты и числовые сравнения, которые могут увеличить текстовые сравнения.
...