Question

Я хочу, чтобы Perl (5.8.8) выяснил, какое слово имеет больше всего общих букв с остальными словами в массиве, но только те буквы, которые находятся в том же месте.(И желательно без использования библиотек.)

Возьмем для примера этот список слов:

BAKER
SALER
BALER
CARER
RUFFR

Ее BALER - это слово, которое имеет большинство букв, общих с остальными.Он соответствует BAxER в BAKER, xALER в SALER, xAxER в CARER и xxxxR в RUFFR.

Я хочу, чтобы Perl нашел для меня это слово в произвольном списке слов одинаковой длины и регистра.Похоже, я попал в стену, поэтому помощь очень ценится!

То, что я пробовал до сих пор

На данный момент у меня не так много сценариев:

use strict;
use warnings; 
my @wordlist = qw(BAKER SALER MALER BARER RUFFR);
foreach my $word (@wordlist) {
    my @letters = split(//, $word);
    # now trip trough each iteration and work magic...
}

Там, где есть комментарий, я пробовал несколько видов кода, насыщенного циклами for и ++ varables.До сих пор ни одна из моих попыток не сделала то, что мне нужно.

Итак, чтобы лучше объяснить: мне нужно проверить слово в слово по списку, для каждой буквенной позиции, чтобы найтислово, которое имеет наибольшее количество общих букв с остальными в списке, в позиции этой буквы.

Один из возможных способов - это сначала проверить, какое слово (слова) имеет наибольшее общее число в букве.-позицию 0, затем проверяйте буквенную позицию 1 и т. д., пока не найдете слово, которое в сумме имеет наибольшее количество общих букв с другими словами в списке.Затем я хотел бы напечатать список в виде матрицы с оценками для каждой буквенной позиции и общей оценкой для каждого слова, в отличие от того, что предлагает DavidO.

В результате вы получите матрицу для каждого слова, с оценкой для каждой буквенной позиции и общей суммой оценок для каждого слова в матрице.

ЦельПрограмма

Хе-хе, я бы тоже сказал: Программа для взлома терминалов в игре Fallout 3.: D Я думаю, что это отличный способ изучить Perl, в то же время весело проводя время в играх.

Вот одно из учебных пособий по взлому терминалов Fallout 3, которые я использовал для исследования: FALLOUT 3: Hacking FAQ v1.2 , и я уже создал программу для сокращения списка слов,например:

#!/usr/bin/perl
# See if one word has equal letters as the other, and how many of them are equal
use strict;
use warnings; 

my $checkword = "APPRECIATION"; # the word to be checked
my $match = 4; # equal to the match you got from testing your checkword
my @checkletters = split(//, $checkword); #/

my @wordlist = qw(
    PARTNERSHIPS
    REPRIMANDING
    CIVILIZATION
    APPRECIATION
    CONVERSATION
    CIRCUMSTANCE
    PURIFICATION
    SECLUSIONIST
    CONSTRUCTION
    DISAPPEARING
    TRANSMISSION
    APPREHENSIVE
    ENCOUNTERING
);

print "$checkword has $match letters in common with:\n";

foreach my $word (@wordlist) {
    next if $word eq $checkword;
    my @letters = split(//, $word);
    my $length = @letters; # determine length of array (how many letters to check)

    my $eq_letters = 0; # reset to 0 for every new word to be tested
    for (my $i = 0; $i < $length; $i++) {
        if ($letters[$i] eq $checkletters[$i]) {
            $eq_letters++;
        }
    }
    if ($eq_letters == $match) {
        print "$word\n";
    }
}
# Now to make a script on to find the best word to check in the first place...

Этот скрипт выдаст CONSTRUCTION и TRANSMISSION в качестве результата, как в FAQ по игре.Однако хитрость в исходном вопросе (и вещь, которую мне не удалось выяснить самостоятельно), заключается в том, как найти лучшее слово, которое можно попробовать в первую очередь, то есть APPRECIATION.

Хорошо, теперь я предоставил свое собственное решение на основе вашей помощи и считаю эту ветку закрытой.Большое, большое спасибо всем, кто внес свой вклад.Вы очень помогли, и по дороге я тоже многому научился. : D

DavidO · Answer 1 · 10 июля 2011

Вот один из способов.Пару раз перечитав вашу спецификацию, я думаю, это то, что вы ищете.

Стоит отметить, что, возможно, будет более одного слова с равным высшим баллом.Из вашего списка есть только один победитель, но возможно, что в более длинных списках будет несколько одинаково выигрышных слов.Это решение имеет дело с этим.Также, насколько я понимаю, вы учитываете совпадения букв только в том случае, если они встречаются в одном столбце для каждого слова.Если это так, вот рабочее решение:

use 5.012;
use strict;
use warnings;
use List::Util 'max';

my @words = qw/
    BAKER
    SALER
    BALER
    CARER
    RUFFR
/;

my @scores;
foreach my $word ( @words ) {
    my $score;
    foreach my $comp_word ( @words ) {
        next if $comp_word eq $word;
        foreach my $pos ( 0 .. ( length $word ) - 1 ) {
            $score++ if substr( $word, $pos, 1 ) eq substr( $comp_word, $pos, 1);
        }
    }
    push @scores, $score;
}
my $max = max( @scores );
my ( @max_ixs ) = grep { $scores[$_] == $max } 0 .. $#scores;

say "Words with most matches:";
say for @words[@max_ixs];

Это решение подсчитывает, сколько раз в каждом буквенном столбце буквы каждого слова соответствуют другим словам.Например:

Words:     Scores:       Because:
ABC        1, 2, 1 = 4   A matched once,  B matched twice, C matched once.
ABD        1, 2, 1 = 4   A matched once,  B matched twice, D matched once.
CBD        0, 2, 1 = 3   C never matched, B matched twice, D matched once.
BAC        0, 0, 1 = 1   B never matched, A never matched, C matched once.

Это дает вам победителей ABC и ABD, каждый из которых имеет по четыре позиционных матча.Т.е. кумулятивное время, в течение которого столбец один, строка один соответствовал столбцу одна строка два, три и четыре и т. Д. Для последующих столбцов.Возможно, его можно будет оптимизировать и перефразировать, чтобы он был короче, но я старался сделать логику довольно легко читаемой.Наслаждайтесь!

ОБНОВЛЕНИЕ / РЕДАКТИРОВАНИЕ Я подумал об этом и понял, что хотя мой существующий метод делает именно то, что запрашивал ваш первоначальный вопрос, он сделал это за O (n ^ 2) время, чтосравнительно медленноНо если мы используем хеш-ключи для букв каждого столбца (по одной букве на ключ) и делаем подсчет того, сколько раз каждая буква появляется в столбце (как значение хеш-элемента), мы могли бы сделать наши суммирования в O (1) время и наш обход списка в O (n * c) времени (где c - количество столбцов, а n - количество слов).Также есть некоторое время установки (создание хэша).Но у нас все еще есть большое улучшение.Вот новая версия каждого метода, а также сравнение каждого из них.

use strict;
use warnings;
use List::Util qw/ max sum /;
use Benchmark qw/ cmpthese /;

my @words = qw/
    PARTNERSHIPS
    REPRIMANDING
    CIVILIZATION
    APPRECIATION
    CONVERSATION
    CIRCUMSTANCE
    PURIFICATION
    SECLUSIONIST
    CONSTRUCTION
    DISAPPEARING
    TRANSMISSION
    APPREHENSIVE
    ENCOUNTERING
/;


# Just a test run for each solution.
my( $top, $indexes_ref );

($top, $indexes_ref ) = find_top_matches_force( \@words );
print "Testing force method: $top matches.\n";
print "@words[@$indexes_ref]\n";

( $top, $indexes_ref ) = find_top_matches_hash( \@words );
print "Testing hash  method: $top matches.\n";
print "@words[@$indexes_ref]\n";



my $count = 20000;
cmpthese( $count, {
    'Hash'  => sub{ find_top_matches_hash( \@words ); },
    'Force' => sub{ find_top_matches_force( \@words ); },
} );


sub find_top_matches_hash {
    my $words = shift;
    my @scores;
    my $columns;
    my $max_col = max( map { length $_ } @{$words} ) - 1;
    foreach my $col_idx ( 0 .. $max_col ) {
        $columns->[$col_idx]{ substr $_, $col_idx, 1 }++ 
            for @{$words};
    }
    foreach my $word ( @{$words} ) {
        my $score = sum( 
            map{ 
                $columns->[$_]{ substr $word, $_, 1 } - 1
            } 0 .. $max_col
        );
        push @scores, $score;
    }
    my $max = max( @scores );
    my ( @max_ixs ) = grep { $scores[$_] == $max } 0 .. $#scores;
    return(  $max, \@max_ixs );
}


sub find_top_matches_force {
    my $words = shift;
    my @scores;
    foreach my $word ( @{$words} ) {
        my $score;
        foreach my $comp_word ( @{$words} ) {
            next if $comp_word eq $word;
            foreach my $pos ( 0 .. ( length $word ) - 1 ) {
                $score++ if 
                    substr( $word, $pos, 1 ) eq substr( $comp_word, $pos, 1);
            }
        }
        push @scores, $score;
    }
    my $max = max( @scores );
    my ( @max_ixs ) = grep { $scores[$_] == $max } 0 .. $#scores;
    return( $max, \@max_ixs );
}

Вывод:

Testing force method: 39 matches.
APPRECIATION
Testing hash  method: 39 matches.
APPRECIATION
        Rate Force  Hash
Force 2358/s    --  -74%
Hash  9132/s  287%    --

Я понимаю, что ваша оригинальная спецификация изменилась после того, как вы увидели некоторыеиз других предоставленных вариантов, и это в некотором роде природа инноваций, но головоломка все еще была жива в моей памяти.Как видите, мой метод хеширования на 287% быстрее, чем оригинальный метод.Больше веселья за меньшее время!

ysth · Answer 2 · 10 июля 2011

В качестве отправной точки вы можете эффективно проверить, сколько букв у них общего:

$count = ($word1 ^ $word2) =~ y/\0//;

Но это полезно, только если вы перебираете все возможные пары слов, что в данном случае не нужно:

use strict;
use warnings;
my @words = qw/
    BAKER
    SALER
    BALER
    CARER
    RUFFR
/;

# you want a hash to indicate which letters are present how many times in each position:

my %count;
for my $word (@words) {
    my @letters = split //, $word;
    $count{$_}{ $letters[$_] }++ for 0..$#letters;
}

# then for any given word, you get the count for each of its letters minus one (because the word itself is included in the count), and see if it is a maximum (so far) for any position or for the total:

my %max_common_letters_count;
my %max_common_letters_words;
for my $word (@words) {
    my @letters = split //, $word;
    my $total;
    for my $position (0..$#letters, 'total') {
        my $count;
        if ( $position eq 'total' ) {
            $count = $total;
        }
        else {
            $count = $count{$position}{ $letters[$position] } - 1;
            $total += $count;
        }
        if ( ! $max_common_letters_count{$position} || $count >= $max_common_letters_count{$position} ) {
            if ( $max_common_letters_count{$position} && $count == $max_common_letters_count{$position} ) {
                push @{ $max_common_letters_words{$position} }, $word;
            }
            else {
                $max_common_letters_count{$position} = $count;
                $max_common_letters_words{$position} = [ $word ];
            }
        }
    }
}

# then show the maximum words for each position and in total: 

for my $position ( sort { $a <=> $b } grep $_ ne 'total', keys %max_common_letters_count ) {
    printf( "Position %s had a maximum of common letters of %s in words: %s\n",
        $position,
        $max_common_letters_count{$position},
        join(', ', @{ $max_common_letters_words{$position} })
    );
}
printf( "The maximum total common letters was %s in words(s): %s\n",
    $max_common_letters_count{'total'},
    join(', ', @{ $max_common_letters_words{'total'} })
);

cjm · Answer 3 · 10 июля 2011

Вот полный сценарий.Он использует ту же идею, что упоминал (хотя у меня это было независимо).Используйте побитовый xor для объединения строк, а затем подсчитайте количество NUL в результате.Пока ваши строки ASCII, это скажет вам, сколько было соответствующих букв.(Это сравнение чувствительно к регистру, и я не уверен, что произойдет, если строки будут UTF-8. Вероятно, ничего хорошего.)

use strict;
use warnings;
use 5.010;

use List::Util qw(max);

sub findMatches
{
  my ($words) = @_;

  # Compare each word to every other word:
  my @matches = (0) x @$words;

  for my $i (0 .. $#$words-1) {
    for my $j ($i+1 .. $#$words) {
      my $m = ($words->[$i] ^ $words->[$j]) =~ tr/\0//;

      $matches[$i] += $m;
      $matches[$j] += $m;
    }
  }

  # Find how many matches in the best word:
  my $max = max(@matches);

  # Find the words with that many matches:
  my @wanted = grep { $matches[$_] == $max } 0 .. $#matches;

  wantarray ? @$words[@wanted] : $words->[$wanted[0]];
} # end findMatches

my @words = qw(
    BAKER
    SALER
    BALER
    CARER
    RUFFR
);

say for findMatches(\@words);

ghayes · Answer 4 · 10 июля 2011

Давно не трогал perl, так что это псевдокод.Это не самый быстрый алгоритм, но он отлично подойдет для небольшого количества слов.

totals = new map #e.g. an object to map :key => :value

for each word a
  for each word b
    next if a equals b

    totals[a] = 0
    for i from 1 to a.length
      if a[i] == b[i]
        totals[a] += 1
      end
    end
  end
end

return totals.sort_by_key.last

Извините за отсутствие perl, но если вы закодируете его в perl, он должен работать как шарм.

Краткое примечание по времени выполнения: оно будет запущено за время number_of_words ^ 2 * length_of_words , поэтому в списке из 100 слов, каждое длиной 10 символов, это будет выполняться100 000 циклов, что достаточно для большинства применений.

TLP · Answer 5 · 10 июля 2011

Вот версия, которая полагается на транспонирование слов для подсчета идентичных символов.Я использовал слова из вашего исходного сравнения, а не код.

Это должно работать с любыми длинами слов и любым списком длин.Вывод:

Word    score
----    -----
BALER   12
SALER   11
BAKER   11
CARER   10
RUFFR   4

Код:

use warnings;
use strict;

my @w = qw(BAKER SALER BALER CARER RUFFR);
my @tword = t_word(@w);

my @score;
push @score, str_count($_) for @tword;
@score = t_score(@score);

my %total;

for (0 .. $#w) {
    $total{$w[$_]} = $score[$_];
}

print "Word\tscore\n";
print "----\t-----\n";
print "$_\t$total{$_}\n" for (sort { $total{$b} <=> $total{$a} } keys %total);

# transpose the words
sub t_word {
    my @w = @_;
    my @tword;
    for my $word (@w) {
        my $i = 0;
        while ($word =~ s/(.)//) {
            $tword[$i++] .= $1;
        }
    }
    return @tword;
}

# turn each character into a count
sub str_count {
    my $str = uc(shift);
    while ( $str =~ /([A-Z])/ ) {
        my $chr = $1;
        my $num = () = $str =~ /$chr/g;
        $num--;
        $str =~ s/$chr/$num /g;
    }
    return $str;
}

# sum up the character counts
# while reversing the transpose
sub t_score {
    my @count = @_;
    my @score;
    for my $num (@count) {
        my $i = 0;
        while( $num =~ s/(\d+) //) {
            $score[$i++] += $1;
        }
    }
    return @score;
}

Jon · Answer 6 · 10 июля 2011

Вот моя попытка ответа.Это также позволит вам увидеть каждый отдельный матч, если вам это нужно.(т.е. BALER соответствует 4 символам в BAKER). EDIT : теперь он перехватывает все совпадения, если между словами есть связь (я добавил "CAKER" в список для проверки).BAKER.

Хеш %wordcomparison выглядит так:

'SALER'
        {
          'RUFFR' => 1,
          'BALER' => 4,
          'BAKER' => 3,
          'total' => 11,
          'CARER' => 3
        };

Kebman · Answer 7 · 16 июля 2011

Большое спасибо всем, кто внес свой вклад! Вы, конечно, показали мне, что мне еще нужно многому научиться, но вы также очень помогли мне выработать мой собственный ответ. Я просто помещаю это здесь для справки и возможной обратной связи, так как, вероятно, есть лучшие способы сделать это. Для меня это был самый простой и самый прямой подход, который я мог найти самостоятельно. Наслаждайтесь! :)

#!/usr/bin/perl
use strict;
use warnings; 

# a list of words for testing
my @list = qw( 
BAKER
SALER
BALER
CARER
RUFFR
);

# populate two dimensional array with the list, 
# so we can compare each letter with the other letters on the same row more easily 
my $list_length = @list;
my @words;

for (my $i = 0; $i < $list_length; $i++) {
    my @letters = split(//, $list[$i]);
    my $letters_length = @letters;
    for (my $j = 0; $j < $letters_length; $j++) {
        $words[$i][$j] = $letters[$j];
    }
}
# this gives a two-dimensionla array:
#
# @words = (    ["B", "A", "K", "E", "R"],
#               ["S", "A", "L", "E", "R"],
#               ["B", "A", "L", "E", "R"],
#               ["C", "A", "R", "E", "R"],
#               ["R", "U", "F", "F", "R"],
# );

# now, on to find the word with most letters in common with the other on the same row

# add up the score for each letter in each word
my $word_length = @words;
my @letter_score;
for my $i (0 .. $#words) {
    for my $j (0 .. $#{$words[$i]}) {
        for (my $k = 0; $k < $word_length; $k++) {
            if ($words[$i][$j] eq $words[$k][$j]) {
                $letter_score[$i][$j] += 1; 
            }
        }
        # we only want to add in matches outside the one we're testing, therefore
        $letter_score[$i][$j] -= 1;
    }
}

# sum each score up
my @scores;
for my $i (0 .. $#letter_score ) {
    for my $j (0 .. $#{$letter_score[$i]}) {
        $scores[$i] += $letter_score[$i][$j];
    }
}

# find the highest score
my $max = $scores[0];
foreach my $i (@scores[1 .. $#scores]) {
    if ($i > $max) {
        $max = $i;
    }
}

# and print it all out :D
for my $i (0 .. $#letter_score ) {
    print "$list[$i]: $scores[$i]";
    if ($scores[$i] == $max) {
        print " <- best";
    }   
    print "\n";
}

При запуске скрипт выдает следующее:

BAKER: 11
SALER: 11
BALER: 12 <- best
CARER: 10
RUFFR: 4

Alex · Answer 8 · 10 июля 2011

Вы можете сделать это, используя грязный трюк с регулярными выражениями для выполнения кода, если на его месте совпадает буква, но не иначе, к счастью, довольно легко построить регулярные выражения по ходу дела:

Пример регулярного выражения:

(?:(C(?{ $c++ }))|.)(?:(A(?{ $c++ }))|.)(?:(R(?{ $c++ }))|.)(?:(E(?{ $c++ }))|.)(?:(R(?{ $c++ }))|.)

Это может быть или не быть быстрым.

use 5.12.0;
use warnings;
use re 'eval';

my @words = qw(BAKER SALER BALER CARER RUFFR);

my ($best, $count) = ('', 0);
foreach my $word (@words) {
    our $c = 0;
    foreach my $candidate (@words) {
    next if $word eq $candidate;

    my $regex_str = join('', map {"(?:($_(?{ \$c++ }))|.)"} split '', $word);
    my $regex = qr/^$regex_str$/;

    $candidate =~ $regex or die "did not match!";
    }
    say "$word $c";
    if ($c > $count) {
    $best = $word;
    $count = $c;
    }
}

say "Matching: first best: $best";

Использование трюка xor будет быстрым, но предполагает многое из диапазона символов, с которыми вы можете столкнуться. Есть много способов, которыми utf-8 сломается в этом случае.

Найти слово с большинством букв, общих с другими словами

То, что я пробовал до сих пор

ЦельПрограмма

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Найти слово с большинством букв, общих с другими словами

То, что я пробовал до сих пор

ЦельПрограмма

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы