Как удалить повторяющиеся слова (слова идут не подряд) в файле с помощью регулярных выражений? - PullRequest
0 голосов
/ 23 мая 2018

Я хочу удалить все слова, которые являются дубликатами, из файла с помощью регулярных выражений.

Например:

 The university of Hawaii university began using began radio. 

Вывод:

 The university of Hawaii began using radio. 

Я написалэто регулярное выражение:

 String regex = "\\b(\\p{IsAlphabetic}+)(\\s+\\1\\b)+";

, которое удаляет только слова, идущие подряд после слова.

Например: The university university of Hawaii Hawaii began using radio.

Вывод: The university of Hawaii began using radio.

Мой код с регулярным выражением:

File dir = new File ("C: /Users / Arnoldas / workspace / uplo / ");

            String source = dir.getCanonicalPath() + File.separator + "Output.txt";
            String dest = dir.getCanonicalPath() + File.separator + "Final.txt";

            File fin = new File(source);
            FileInputStream fis = new FileInputStream(fin);
            BufferedReader in = new BufferedReader(new InputStreamReader(fis, "UTF-8"));

            //FileWriter fstream = new FileWriter(dest, true);
            OutputStreamWriter fstream = new OutputStreamWriter(new FileOutputStream(dest, true), "UTF-8");

            BufferedWriter out = new BufferedWriter(fstream);

            String regex = "\\b(\\p{IsAlphabetic}+)(\\s+\\1\\b)+";

            //String regex = "(?i)\\b([a-z]+)\\b(?:\\s+\\1\\b)+";
            Pattern p = Pattern.compile(regex, Pattern.CASE_INSENSITIVE);

            String aLine;
            while ((aLine = in.readLine()) != null) {

                Matcher m = p.matcher(aLine);
                while (m.find()) {
                    aLine = aLine.replaceAll(m.group(), m.group(1));
                }

                //Process each line and add output to *.txt file
                out.write(aLine);
                out.newLine();
                out.flush();
            }

Ответы [ 3 ]

0 голосов
/ 23 мая 2018

Вы были на правильном пути, но если между повторениями может быть текст, это должно быть выполнено в цикле (для "началось ... началось ... началось").

String s = "The university of Hawaii university began using began radio.";
for (;;) {
    String t = s.replaceAll("(?i)\\b(\\p{IsAlphabetic}+)\\b(.*?)\\s*\\b\\1\\b",
                            "$1$2");
    if (t.equals(s)) {
        break;
    }
    s = t;
}

Для замены без учета регистра: используйте (?i).

Это очень неэффективно, поскольку регулярное выражение должно возвращаться.

Просто бросьте все слова в Set.

// Java 9
Set<String> corpus = Set.of(s.split("\\P{IsAlphabetic}+"));

// Older java:
Set<String> corpus = new TreeSet<>();
Collections.addAll(set, s.split("\\P{IsAlphabetic}+"));

corpus.remove("");

После комментария

  • Исправление исходного кода
  • Использование ввода / вывода нового стиляФайлы и путь, но пока нет потоков
  • Попробуйте с ресурсами для автоматического закрытия и входа
  • Регулярно выражайте только для поиска слова с необязательным пробелом.Использование набора для проверки дубликатов.

        Path dir = Paths.get("C:/Users/Arnoldas/workspace/uplo");
        Path source = dir.resolve("Output.txt");
        String dest = dir.resolve("Final.txt");
    
        String regex = "(\\s*)\\b\\(p{IsAlphabetic}+)\\b";
        Pattern p = Pattern.compile(regex, Pattern.CASE_INSENSITIVE);
    
        try (BufferedReader in = Files.newBufferedReader(source);
                BufferedWriter out = new BufferedWriter(dest)) {
            String line;
            while ((line = in.readLine()) != null) {
                Set<String> words = new HashSet<>();
                Matcher m = p.matcher(line);
                StringBuffer sb = new StringBuffer();
                while (m.find()) {
                    boolean added = words.add(m.group(2).toLowerCase());
                    m.appendReplacement(sb, added ? m.group() : "");
                }
                m.appendTail(sb);
                out.write(sb.toString());
                out.newLine();
            }
        }
    
0 голосов
/ 23 мая 2018

Попробуйте это регулярное выражение:

\b(\w+)\s+\1\b
Here \b is a word boundary and \1 references the captured match of the first group.

Источник: Регулярное выражение для последовательных повторяющихся слов

0 голосов
/ 23 мая 2018

Вместо этого вы можете использовать Streams:

String s = "The university university of Hawaii Hawaii began using radio.";
System.out.println(Arrays.asList(s.split(" ")).stream().distinct().collect(Collectors.joining(" ")));

В этом примере строка разделяется по пробелам, а затем преобразуется в поток.Дубликаты удаляются с помощью different (), и в конце все соединяются вместе с пробелами между.

Но у этого подхода есть проблема с точкой в ​​конце.«радио» и «радио».это разные слова.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...