Я хотел бы получить некоторые данные из текстового файла.Я решил сделать это с помощью Natural Language Toolkit , но я открыт для предложений, если есть лучший способ сделать это.
Вот пример:
Мне нужен рейс из Нью-Йорка в Сан-Франциско, Калифорния.
Из этого текста я бы хотелчтобы получить город и штат для происхождения и назначения.
Вот что у меня есть:
import nltk
from nltk.text import *
from nltk.corpus import PlaintextCorpusReader
def readfiles():
corpus_root = 'C:\prototype\emails'
w = PlaintextCorpusReader(corpus_root, '.*')
t = Text(w.words())
print "--- to ----"
print t.concordance("to")
print "--- from ----"
print t.concordance("from")
Я могу прочитать текст из некоторого ввода (файл в моем случае), а затем использовать метод согласования , чтобы найти всеиспользование этого.Я хочу извлечь город, информацию о штате, которая идет после «до» и «от».
Вопрос в том, как лучше всего смотреть на текст после случаев «до» и «от»?