Работа с текстом через Java - PullRequest
0 голосов
/ 28 декабря 2011

Я должен прочитать текстовый файл через Java и очистить все идентификаторы электронной почты и URL-адреса в текстовом файле.Это должно уменьшить шум в данных.

Есть ли в java какие-либо библиотечные функции, которые делают то же самое?

Ответы [ 3 ]

2 голосов
/ 28 декабря 2011

Вы можете прочитать файл, используя FileInputStream и / или BufferedReader. Вы можете проанализировать каждую строку и использовать регулярное выражение, чтобы увидеть, есть ли какие-либо соответствия для шаблонов электронной почты или URL, и создать новую строку вывода или поток для их записи.

Покажите нам, что вы пробовали, и ваш текущий код.

В качестве приложения я использовал эти: http://www.regular -expressions.info / email.html http://daringfireball.net/2009/11/liberal_regex_for_matching_urls

С разной степенью успеха.

0 голосов
/ 28 декабря 2011

String.replace () принимает регулярное выражение и замещающую строку (в вашем случае ""). Используйте regex для полей электронной почты и URL для выполнения этой задачи.

0 голосов
/ 28 декабря 2011

Как правило, в системе НЛП текст будет разбит на токены, и работа с URL-адресами или адресами электронной почты является лишь одним из примеров сокращения низкочастотных токенов для заполнителей для уменьшения разреженности данных.Предполагая, что токенизация способна хранить каждый элемент в одном токене, проще заменить токены - точно так же, как вы можете заменить все слова, которые встречаются меньше определенного порога, на заполнитель.

Далее,Возможно, вы захотите применить Baum-Welch для всего этого бизнеса.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...