Question

Я только начал использовать Natural Language Toolkit (NLTK) как часть моего проекта инженерного колледжа. Кто-нибудь может сказать, пожалуйста, как мне прочитать текст абзаца ввода и

1) разбить его на текстовые компоненты, т.е. на количество предложений, количество слов, количество символов и количество полисиллабических или сложных слов в данном абзаце

и

2) Также печать вышеуказанные определенные значения

Adam_G · Answer 1 · 20 мая 2012

Из обсуждения в группе Google NLTK :

import curses 
from curses.ascii import isdigit 
import nltk 
from nltk.corpus import cmudict

d = cmudict.dict() 

def nsyl(word): 
  return [len(list(y for y in x if isdigit(y[-1]))) for x in d[word.lower()]]

Это должно быть в состоянии дать вам счет слога для каждого слова. Надеюсь, это поможет.

Jacob · Answer 2 · 16 февраля 2011

Откуда берется абзац ввода? Файл? Приставка? Это больше проблема с питоном, чем с NLTK.

В остальном посмотрите на модуль nltk.tokenize & nltk.probability.FreqDist.

Как найти текстовые функции и распечатать их?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как найти текстовые функции и распечатать их?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов