Как найти текстовые функции и распечатать их? - PullRequest
2 голосов
/ 15 февраля 2011

Я только начал использовать Natural Language Toolkit (NLTK) как часть моего проекта инженерного колледжа. Кто-нибудь может сказать, пожалуйста, как мне прочитать текст абзаца ввода и

1) разбить его на текстовые компоненты, т.е. на количество предложений, количество слов, количество символов и количество полисиллабических или сложных слов в данном абзаце

и

2) Также печать вышеуказанные определенные значения

Ответы [ 2 ]

0 голосов
/ 20 мая 2012

Из обсуждения в группе Google NLTK :

import curses 
from curses.ascii import isdigit 
import nltk 
from nltk.corpus import cmudict

d = cmudict.dict() 

def nsyl(word): 
  return [len(list(y for y in x if isdigit(y[-1]))) for x in d[word.lower()]] 

Это должно быть в состоянии дать вам счет слога для каждого слова. Надеюсь, это поможет.

0 голосов
/ 16 февраля 2011

Откуда берется абзац ввода? Файл? Приставка? Это больше проблема с питоном, чем с NLTK.

В остальном посмотрите на модуль nltk.tokenize & nltk.probability.FreqDist.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...