Question

Мне нужно выполнить поиск по регулярному выражению для строки x в другой строке y, но затем мне нужно знать индекс токена (слова) первого символа попадания после токенизации (разбиения) строки y с использованием некоторого другого регулярного выражения. выражение (например, пробел). Первое регулярное выражение может найти подстроку, поэтому я не могу гарантировать, что оно остановится в начале токена (слова).

Какой будет лучший алгоритм для реализации этого. Простой подход будет следующим:

Найдите x в y, используя первое регулярное выражение, и получите смещение символа z
Разбить y на массив элементов, используя второе регулярное выражение
Прокручивать массив элементов, добавляя длину каждого элемента к переменной LENGTH и добавляя 1 к счетчику COUNTER
Остановите цикл, когда ДЛИНА больше или равна z
Индексом токена первого символа попадания будет значение COUNTER

(Предполагается, что функция разделения хранит символы разделения (например, пробелы) в качестве элементов массива, что очень расточительно.

Конкретный (простой) пример. Предположим, я хочу узнать индекс токена (слова) для поиска «ade» в строке «Луна сделана из сыра». Функция должна дать мне ответ: 3 (для нулевых индексированных массивов).

== Edit ==
Алгоритм также должен работать, когда поиск регулярных выражений пересекает границы токенов. Например, он должен снова возвращать индекс «3» при поиске «de of ch» в «Луна сделана из сыра».

dchoulette · Answer 1 · 19 мая 2011

Найдите первый шаблон в строке, затем посчитайте количество вхождений второй строки шаблона в той части строки, которая находится перед первым шаблоном.

Вот Perl-скрипт, выполняющий эту работу:

    #!/bin/perl -w

    my $string = 'The moon is made of cheese';
    my $lookedfor = 'de of che';
    my $separator = q/\W+/;

    my $count = undef;
    if ($string =~ /(.*?)$lookedfor/) {
        # Keep the smallest (.*?) part of string before the match.
        my $firstpart = $1;

        $count = 0;
        # Count the number of separator 
        $count++ while $firstpart =~ m/$separator/g;
    }

    if (defined $count) {
        printf "index of '%s' in '%s' is %d\n", $lookedfor, $string, $count;
    } else {
        printf "No occurence of '%s' in '%s'\n", $lookedfor, $string;
    }

Toto · Answer 2 · 19 мая 2011

По вашим обновлениям:

#!/usr/bin/perl -l
use strict;
use warnings;

my $string = "The moon is made of cheese";
my $search = 'de of ch';
my $pos = index($string, $search);
if ($pos != -1) {
    my $substr = substr($string, 0, $pos);
    my @words = split /\s+/, $substr;
    print "found in word #", $#words, "\n";
} else {
    print "not found\n";
}

выход:

found in word #3

Эффективный способ найти индекс токена (слова) после поиска строки регулярного выражения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Эффективный способ найти индекс токена (слова) после поиска строки регулярного выражения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов