Извлечение конкретной информации из текста - PullRequest
2 голосов
/ 28 декабря 2011

Я хотел бы получить некоторые данные из текстового файла.Я решил сделать это с помощью Natural Language Toolkit , но я открыт для предложений, если есть лучший способ сделать это.

Вот пример:

Мне нужен рейс из Нью-Йорка в Сан-Франциско, Калифорния.

Из этого текста я бы хотелчтобы получить город и штат для происхождения и назначения.

Вот что у меня есть:

import nltk
from nltk.text import *
from nltk.corpus import PlaintextCorpusReader

def readfiles():    
    corpus_root = 'C:\prototype\emails'
    w = PlaintextCorpusReader(corpus_root, '.*')
    t = Text(w.words())
    print "--- to ----"
    print t.concordance("to")

    print "--- from ----"
    print t.concordance("from")

Я могу прочитать текст из некоторого ввода (файл в моем случае), а затем использовать метод согласования , чтобы найти всеиспользование этого.Я хочу извлечь город, информацию о штате, которая идет после «до» и «от».

Вопрос в том, как лучше всего смотреть на текст после случаев «до» и «от»?

1 Ответ

1 голос
/ 28 декабря 2011

Возможно, вам лучше читать файл построчно?
Тогда что-то простое, как:

cityState = dataAfterTo.split(",")
city = cityState[0]
state = cityState[1].split()[0]

Если, конечно, вы не имеете дело с пользовательским контентом.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...