Я задал несколько вопросов о текстовом майнинге неделю назад, но я был немного смущен и все еще, но теперь я знаю wgat, который я хочу сделать.
Ситуация: Iесть много страниц загрузки с содержанием HTML.Некоторые из них могут быть, например, текстом из блога.Они не структурированы и пришли с разных сайтов.
Что я хочу сделать: Я разделю все слова с пробелами и хочу классифицировать каждое из них или группу единиц в некоторыхпредварительно определенные itens, такие как имена, номера, телефон, электронная почта, URL, дата, деньги, температура и т. д.
Что я знаю: Я знаю понятия / слышал о обработке естественного языка, Named Entity Reconigzer, POSTagging, NayveBayesian, HMM, обучение и многое другое, чтобы сделать классификацию и т. Д., Но есть некоторые разные библиотеки NLP с различными классификаторами и способами сделать это, и я не знаю, что использовать или что делать.
ЧТО МНЕ НУЖНО: Мне нужен пример кода из классификатора, НЛП, независимо от того, что может классифицировать каждое слово из текста отдельно, а не весь текст.Примерно так:
//This is pseudo-code for what I want, and not a implementation
classifier.trainFromFile("file-with-train-words.txt");
words = text.split(" ");
for(String word: words){
classifiedWord = classifier.classify(word);
System.out.println(classifiedWord.getType());
}
Кто-нибудь может мне помочь?Я запутался в различных API, классификаторах и алгоритмах.