Удаление строк из другой строки в Java - PullRequest
6 голосов
/ 22 января 2011

Допустим, у меня есть этот список слов:

 String[] stopWords = new String[]{"i","a","and","about","an","are","as","at","be","by","com","for","from","how","in","is","it","not","of","on","or","that","the","this","to","was","what","when","where","who","will","with","the","www"};

Чем у меня есть текст

 String text = "I would like to do a nice novel about nature AND people"

Есть ли метод, который соответствует stopWords и удаляет их, игнорируя регистр; как это где-то там?:

 String noStopWordsText = remove(text, stopWords);

Результат:

 " would like do nice novel nature people"

Если вы знаете о регулярных выражениях, то они отлично работают, но я бы действительно предпочел что-то вроде общего решения, ориентированного на производительность.

Кстати, сейчас я использую этот метод общего доступа, в котором отсутствует должная нечувствительная обработка регистра:

 private static final String[] stopWords = new String[]{"i", "a", "and", "about", "an", "are", "as", "at", "be", "by", "com", "for", "from", "how", "in", "is", "it", "not", "of", "on", "or", "that", "the", "this", "to", "was", "what", "when", "where", "who", "will", "with", "the", "www", "I", "A", "AND", "ABOUT", "AN", "ARE", "AS", "AT", "BE", "BY", "COM", "FOR", "FROM", "HOW", "IN", "IS", "IT", "NOT", "OF", "ON", "OR", "THAT", "THE", "THIS", "TO", "WAS", "WHAT", "WHEN", "WHERE", "WHO", "WILL", "WITH", "THE", "WWW"};
 private static final String[] blanksForStopWords = new String[]{"", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", ""};

 noStopWordsText = StringUtils.replaceEach(text, stopWords, blanksForStopWords);     

Ответы [ 4 ]

16 голосов
/ 22 января 2011

Создайте регулярное выражение с вашими стоп-словами, сделайте его нечувствительным к регистру, а затем используйте метод replaceAll совпадения для замены всех совпадений пустой строкой

import java.util.regex.*;

Pattern stopWords = Pattern.compile("\\b(?:i|a|and|about|an|are|...)\\b\\s*", Pattern.CASE_INSENSITIVE);
Matcher matcher = stopWords.matcher("I would like to do a nice novel about nature AND people");
String clean = matcher.replaceAll("");

... в шаблоне - просто я ленив, продолжаю список стоп-слов.

Другой метод - перебрать все стоп-слова и использовать метод String replaceAll. Проблема этого подхода в том, что replaceAll будет компилировать новое регулярное выражение для каждого вызова, поэтому его использование в циклах не очень эффективно. Кроме того, вы не можете передать флаг, который делает регистр нечувствительным к регистру, когда вы используете String s replaceAll.

Редактировать: я добавил \b вокруг шаблона, чтобы он соответствовал только целым словам. Я также добавил \s*, чтобы после этого загромождать все пробелы, возможно, в этом нет необходимости.

5 голосов
/ 22 января 2011

Вы можете создать выражение reg, чтобы оно соответствовало всем стопам слов [например a, пробел здесь] и заканчивалось

str.replaceAll(regexpression,"");

OR

 String[] stopWords = new String[]{" i ", " a ", " and ", " about ", " an ", " are ", " as ", " at ", " be ", " by ", " com ", " for ", " from ", " how ", " in ", " is ", " it ", " not ", " of ", " on ", " or ", " that ", " the ", " this ", " to ", " was ", " what ", " when ", " where ", " who ", " will ", " with ", " the ", " www "};
        String text = " I would like to do a nice novel about nature AND people ";

        for (String stopword : stopWords) {
            text = text.replaceAll("(?i)"+stopword, " ");
        }
        System.out.println(text);

выход:

 would like do nice novel nature people 

Возможно, есть лучший способ.

4 голосов
/ 22 января 2011

Это решение, которое не использует регулярные выражения.Я думаю, что он уступает моему другому ответу, потому что он намного длиннее и менее ясен, но если производительность действительно, очень важна, то это O (n) , где n - длинатекст.

Set<String> stopWords = new HashSet<String>();
stopWords.add("a");
stopWords.add("and");
// and so on ...

String sampleText = "I would like to do a nice novel about nature AND people";
StringBuffer clean = new StringBuffer();
int index = 0;

while (index < sampleText.length) {
  // the only word delimiter supported is space, if you want other
  // delimiters you have to do a series of indexOf calls and see which
  // one gives the smallest index, or use regex
  int nextIndex = sampleText.indexOf(" ", index);
  if (nextIndex == -1) {
    nextIndex = sampleText.length - 1;
  }
  String word = sampleText.substring(index, nextIndex);
  if (!stopWords.contains(word.toLowerCase())) {
    clean.append(word);
    if (nextIndex < sampleText.length) {
      // this adds the word delimiter, e.g. the following space
      clean.append(sampleText.substring(nextIndex, nextIndex + 1)); 
    }
  }
  index = nextIndex + 1;
}

System.out.println("Stop words removed: " + clean.toString());
1 голос
/ 22 января 2011

Разделить text в то время как пространство. Затем переберите массив и продолжайте добавлять к StringBuilder, только если это не одно из стоп-слов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...