У меня большое количество текста в таблицах Mysql.Я хочу провести некоторый статистический анализ, а затем и некоторые НЛП в моем тексте, используя инструментарий NLTK.У меня есть два варианта:
- Извлечь весь текст сразу из моей таблицы БД (возможно, поместив их в файл при необходимости) и использовать функции NLTK
- Извлечь текст и повернутьэто в «корпус», который можно использовать с NLTK.
Последнее кажется довольно сложным, и я не нашел ни одной статьи, которая на самом деле описывает, как его использовать, я нашел только это: Создание программы чтения корпуса с резервной копией MongoDB , которая использует MongoDB в качестве своей базы данных, а код довольно сложен и требует знания MongoDB.С другой стороны, первое кажется действительно простым, но приводит к дополнительным затратам на извлечение текстов из БД.
Теперь вопрос в том, каковы преимущества корпуса в NLTK?Другими словами, если я приму вызов и углублюсь в переписывание методов NTLK, чтобы он мог читать из базы данных MySQL, стоило ли это хлопот?Превращает ли мой текст в корпус то, что я не могу (или с большим трудом) сделать с обычными функциями NLTK?
Также, если вы знаете что-то о подключении MySQL к NLTK, пожалуйста, дайте мне знать.Спасибо