Преимущества создания собственного корпуса в НЛТК - PullRequest
7 голосов
/ 15 февраля 2011

У меня большое количество текста в таблицах Mysql.Я хочу провести некоторый статистический анализ, а затем и некоторые НЛП в моем тексте, используя инструментарий NLTK.У меня есть два варианта:

  1. Извлечь весь текст сразу из моей таблицы БД (возможно, поместив их в файл при необходимости) и использовать функции NLTK
  2. Извлечь текст и повернутьэто в «корпус», который можно использовать с NLTK.

Последнее кажется довольно сложным, и я не нашел ни одной статьи, которая на самом деле описывает, как его использовать, я нашел только это: Создание программы чтения корпуса с резервной копией MongoDB , которая использует MongoDB в качестве своей базы данных, а код довольно сложен и требует знания MongoDB.С другой стороны, первое кажется действительно простым, но приводит к дополнительным затратам на извлечение текстов из БД.

Теперь вопрос в том, каковы преимущества корпуса в NLTK?Другими словами, если я приму вызов и углублюсь в переписывание методов NTLK, чтобы он мог читать из базы данных MySQL, стоило ли это хлопот?Превращает ли мой текст в корпус то, что я не могу (или с большим трудом) сделать с обычными функциями NLTK?

Также, если вы знаете что-то о подключении MySQL к NLTK, пожалуйста, дайте мне знать.Спасибо

1 Ответ

3 голосов
/ 15 февраля 2011

Ну, прочитав много, я узнал ответ.Есть несколько очень полезных функций, таких как словосочетания, поиск, common_context, аналогичные, которые можно использовать для текстов, которые сохраняются как корпус в NLTK.реализация их самостоятельно занимает довольно много времени.Если выбрать мой текст из базы данных и поместить в файл и использовать функцию nltk.Text, тогда я могу использовать все функции, о которых я упоминал ранее, без необходимости писать так много строк кода или даже перезаписывать методы, чтобы я мог подключиться кMySql. Вот ссылка для получения дополнительной информации: nltk.Text

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...