Дополнительный поиск по хешу с использованием «Существует»? - PullRequest
5 голосов
/ 10 июня 2009

Иногда я получаю доступ к хешу, например:

if(exists $ids{$name}){
    $id = $ids{$name};
}

Это хорошая практика? Я немного обеспокоен тем, что он содержит два поиска, где действительно нужно сделать один. Есть ли лучший способ проверить существование и присвоить значение?

Ответы [ 6 ]

10 голосов
/ 10 июня 2009

Проверяя с помощью exists, вы предотвращаете автовивификацию. См. Автовификация: что это такое и почему меня это волнует? .

ОБНОВЛЕНИЕ: Как указано Тренделс , автовивификация не включается в приведенный вами пример. Я предполагаю, что реальный код включает многоуровневые хеши.

Вот иллюстрация:

#!/usr/bin/perl

use strict;
use warnings;

use Data::Dumper;

my (%hash, $x);

if ( exists $hash{test}->{vivify} ) {
    $x = $hash{test}->{vivify}->{now};
}

print Dumper \%hash;

$x = $hash{test}->{vivify}->{now};

print Dumper \%hash;

__END__


C:\Temp> t
$VAR1 = {
    'test' => {}
};
$VAR1 = {
    'test' => {
        'vivify' => {}
    }
};
1 голос
/ 11 июня 2009

Вы можете использовать apply Hash :: Util lock_keys для хеша. Затем выполните свои задания в течение eval.

#!/usr/bin/perl
use Hash::Util qw/lock_keys/;

my %a = (
    1 => 'one',
    2 => 'two'
);

lock_keys(%a);

eval {$val = $a{2}};     # this assignment completes
eval {$val = $a{3}};     # this assignment aborts
print "val=$val\n";      # has value 'two'
1 голос
/ 10 июня 2009

Вы можете сделать это с одним поиском, как это:

$tmp = $ids{$name};
$id = $tmp if (defined $tmp);

Однако я бы не стал беспокоиться, если бы не увидел, что это было узким местом

0 голосов
/ 20 августа 2013

производительность не важна в этом случае, см. "Devel :: NYTProf". Но чтобы ответить на ваш вопрос:

если значение в хэше не существует, "существует" очень быстро

if(exists $ids{$name}){
    $id = $ids{$name};
}

, но если он существует, то выполняется второй поиск. если значение, вероятно, существует, то ускорение только одного просмотра будет быстрее

$id = $ids{$name};
if($id){
    #....
}

см. Этот небольшой тест из списка рассылки Perl.

#!/usr/bin/perl -w
use strict;
use Benchmark qw( timethese );

use vars qw( %hash );
@hash{ 'A' .. 'Z', 'a' .. 'z' } = (1) x 52;

my $key = 'xx';
timethese 10000000, {
        'defined' => sub {
                if (defined $hash{$key}) { my $x = $hash{$key}; return $x; };
                return 0;
        },
        'defined_smart' => sub {
                my $x = $hash{$key};
                if (defined $x) {
                        return $x;
                };
                return 0;
        },
        'exists' => sub {
                if (exists $hash{$key}) { my $x = $hash{$key}; return $x; };
                return 0;
        },
        'as is' => sub {
                if ($hash{$key}) { my $x = $hash{$key}; return $x; };
                return 0;
        },
        'as is_smart' => sub {
                my $x = $hash{$key};
                if ($x) { return $x; };
                return 0;
        },

};

Использование ключа («xx»), который не существует, показывает, что «существует» является победителем.

Benchmark: timing 10000000 iterations of as is, as is_smart, defined, defined_smart, exists...
     as is:  1 wallclock secs ( 1.52 usr +  0.00 sys =  1.52 CPU) @ 6578947.37/s (n=10000000)
as is_smart:  3 wallclock secs ( 2.67 usr +  0.00 sys =  2.67 CPU) @ 3745318.35/s (n=10000000)
   defined:  3 wallclock secs ( 1.53 usr +  0.00 sys =  1.53 CPU) @ 6535947.71/s (n=10000000)
defined_smart:  3 wallclock secs ( 2.17 usr +  0.00 sys =  2.17 CPU) @ 4608294.93/s (n=10000000)
    exists:  1 wallclock secs ( 1.33 usr +  0.00 sys =  1.33 CPU) @ 7518796.99/s (n=10000000)

использование ключа ('x'), который существует, показывает, что as_smart является победителем.

Benchmark: timing 10000000 iterations of as is, as is_smart, defined, defined_smart, exists...
     as is:  3 wallclock secs ( 2.76 usr +  0.00 sys =  2.76 CPU) @ 3623188.41/s (n=10000000)
as is_smart:  3 wallclock secs ( 1.81 usr +  0.00 sys =  1.81 CPU) @ 5524861.88/s (n=10000000)
   defined:  3 wallclock secs ( 3.42 usr +  0.00 sys =  3.42 CPU) @ 2923976.61/s (n=10000000)
defined_smart:  2 wallclock secs ( 2.32 usr +  0.00 sys =  2.32 CPU) @ 4310344.83/s (n=10000000)
    exists:  3 wallclock secs ( 2.83 usr +  0.00 sys =  2.83 CPU) @ 3533568.90/s (n=10000000)
0 голосов
/ 11 июня 2009

Если я хочу высокую производительность, я пишу эту идиому, когда хочу создать хэш, как установлено:

my %h;
for my $key (@some_vals) {
  ...
  $h{$key} = undef unless exists $h{$key};
  ...
}

return keys %h;

Этот код немного быстрее, чем обычно используемый $h{$key}++. exists избегает бесполезного присвоения, а undef избегает присвоения значения. Лучший ответ для вас: сравните это! Я предполагаю, что exists $ids{$name} немного быстрее, чем $id=$ids{$name}, и если у вас большой коэффициент промаха, ваша версия с существующим может быть быстрее, чем назначение и тестирование после.

Например, если я хочу пересечение быстрых множеств, я бы написал что-то вроде этого.

sub intersect {
  my $h;
  @$h{@{shift()}} = ();
  my $i;
  for (@_) {
    return unless %$h;
    $i = {};
    @$i{grep exists $h->{$_}, @$_} = ();
    $h = $i;
  }
  return keys %$h;
}
0 голосов
/ 11 июня 2009

если это не многоуровневый хеш, вы можете сделать это:

$id = $ids{$name} || 'foo';

или если $ id уже имеет значение:

$id ||= $ids{$name};

где 'foo' является значением по умолчанию или переходным значением. Если это многоуровневый хеш, вы должны использовать 'существующие', чтобы избежать автовивификации, обсуждавшейся ранее в потоке, или не использовать ее, если автовивификация не будет проблемой

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...