библиотека интеллектуального анализа текста или лингвальная библиотека? - PullRequest
0 голосов
/ 20 января 2010

У меня есть куча данных, собранных на принадлежащем мне форуме, и я хотел бы провести анализ текста или использовать лингвистическую библиотеку для извлечения полезной информации.

подойдет любая библиотека для анализа текста, библиотека данных на любом языке.

Спасибо.

Ответы [ 6 ]

4 голосов
/ 25 января 2010

Я рекомендую вам взглянуть на R . Он имеет большое количество пакетов для интеллектуального анализа текста: взгляните на представление Natural Language Processing . В частности, посмотрите на пакет tm. Вот некоторые соответствующие ссылки:

Другим примером полезного пакета для этого является пакет readme Гэри Кинга .

2 голосов
/ 20 января 2010

Возможно, вы захотите взглянуть на Python NLTK (Natural Language ToolKit): он специально разработан для такого рода вещей.

Существует также великая книга , которую вы можете, но для начала.

0 голосов
/ 22 июля 2018

Я бы порекомендовал следующие библиотеки Python:

  1. nltk
  2. keras
  3. tensorflow

Примечание. Перед анализом текста необходимо очистить данные в соответствии с вашими требованиями

0 голосов
/ 29 марта 2014

stanford core-nlp хорош для английского текста и имеет такие вещи, как распознавание именованных объектов. Взгляните на: http://nlp.stanford.edu/software/corenlp.shtml

GATE, который Ehsan уже рекомендовал, также хорош, но он может быть немного сложным, если вам нужно написать свои собственные компоненты. Для крупномасштабных вещей это здорово, хотя.

UIMA похожа на GATE, но не так проста в использовании, поскольку не имеет расширенного графического интерфейса, такого как GATE. (http://uima.apache.org)

0 голосов
/ 16 ноября 2010

Попробуйте GATE, он имеет графический интерфейс и, конечно, вы можете использовать Java API для большей мощности: http://gate.ac.uk/family/developer.html

Вы также можете использовать Weka для обработки текста и анализа текста, ознакомьтесь с этими полезными лекциями: http://sentimentmining.net/weka/

0 голосов
/ 20 января 2010

Mallet - это библиотека Java, предназначенная для интеллектуального анализа текста. Как только вы предварительно обработали текстовые данные, вам подойдет и общий инструмент для анализа данных, такой как Weka .

Если у вас есть доступ к SPSS или SAS, их продукты должны быть проще в использовании.

...