Что такое «потоковое локальное хранилище» в Python и зачем оно мне нужно? - PullRequest
84 голосов
/ 19 сентября 2008

В частности, в Python как переменные распределяются между потоками?

Хотя я использовал threading.Thread раньше, я никогда не понимал и не видел примеров того, как переменные стали общими. Распределяются ли они между основным потоком и детьми или только среди детей? Когда мне нужно будет использовать локальное хранилище потоков, чтобы избежать этого общего доступа?

Я видел много предупреждений о синхронизации доступа к общим данным между потоками с помощью блокировок, но мне еще не удалось увидеть действительно хороший пример этой проблемы.

Заранее спасибо!

Ответы [ 4 ]

71 голосов
/ 19 сентября 2008

В Python все совместно используется, кроме локальных переменных функций (потому что каждый вызов функции получает свой собственный набор локальных переменных, а потоки всегда являются отдельными вызовами функций.) И даже тогда, только сами переменные (имена, которые ссылаются на для объектов) являются локальными для функции; Сами объекты всегда глобальны, и что угодно может ссылаться на них. Объект Thread для конкретного потока не является в этом отношении специальным объектом. Если вы храните объект Thread там, где все потоки могут получить доступ (например, к глобальной переменной), тогда все потоки могут получить доступ к этому одному объекту Thread. Если вы хотите атомарно изменить что-либо , которое вы не просто создали в этом же потоке, и не сохранили нигде, где другой поток может получить к нему доступ, вы должны защитить его блокировкой. И все потоки, разумеется, должны использовать одну и ту же блокировку, иначе она не будет очень эффективной.

Если вам нужно реальное локальное хранилище для потоков, то тут и приходит threading.local. Атрибуты threading.local не используются совместно между потоками; каждый поток видит только те атрибуты, в которых он находится. Если вас интересует его реализация, источник находится в _threading_local.py в стандартной библиотеке.

63 голосов
/ 12 декабря 2009

Рассмотрим следующий код:

#/usr/bin/env python

from time import sleep
from random import random
from threading import Thread, local

data = local()

def bar():
    print("I'm called from", data.v)

def foo():
    bar()

class T(Thread):
    def run(self):
        sleep(random())
        data.v = self.getName()   # Thread-1 and Thread-2 accordingly
        sleep(1)
        foo()
 >> T().start(); T().start()
I'm called from Thread-2
I'm called from Thread-1 

Здесь threading.local () используется как быстрый и грязный способ передачи некоторых данных из run () в bar () без изменения интерфейса foo ().

Обратите внимание, что использование глобальных переменных не поможет:

#/usr/bin/env python

from time import sleep
from random import random
from threading import Thread

def bar():
    global v
    print("I'm called from", v)

def foo():
    bar()

class T(Thread):
    def run(self):
        global v
        sleep(random())
        v = self.getName()   # Thread-1 and Thread-2 accordingly
        sleep(1)
        foo()
 >> T().start(); T().start()
I'm called from Thread-2
I'm called from Thread-2 

Между тем, если бы вы могли позволить передавать эти данные в качестве аргумента функции foo () - это был бы более элегантный и продуманный способ:

from threading import Thread

def bar(v):
    print("I'm called from", v)

def foo(v):
    bar(v)

class T(Thread):
    def run(self):
        foo(self.getName())

Но это не всегда возможно при использовании стороннего или плохо разработанного кода.

16 голосов
/ 20 сентября 2008

Вы можете создать локальное хранилище потока, используя threading.local().

>>> tls = threading.local()
>>> tls.x = 4 
>>> tls.x
4

Данные, хранящиеся в tls, будут уникальными для каждого потока, что поможет избежать непреднамеренного обмена.

1 голос
/ 20 сентября 2008

Как и в любом другом языке, каждый поток в Python имеет доступ к одним и тем же переменным. Нет различий между «основным потоком» и дочерними потоками.

Одно отличие от Python состоит в том, что глобальная блокировка интерпретатора означает, что только один поток может одновременно выполнять код Python. Однако это не очень помогает, когда дело доходит до синхронизации доступа, так как все обычные проблемы с преимуществами все еще применяются, и вы должны использовать примитивы потоков так же, как и в других языках. Однако это означает, что вам нужно пересмотреть вопрос о том, использовали ли вы потоки для повышения производительности.

...