Python asyncio против ThreadPoolExecutor - несогласованные результаты для чисто задачи, основанной на вводе-выводе - PullRequest
3 голосов
/ 14 июля 2020

Недавно я столкнулся с проблемой, когда нужно как можно быстрее получить список URL-адресов.

Естественно, я устроил небольшой тест, чтобы посмотреть, что работает лучше всего.

Подход 1 - asyncio

async def test_async():
    async with httpx.AsyncClient() as client:
        await asyncio.gather(*(fetch_async(client, symbol) for symbol in symbols))


async def fetch_async(client, symbol):
    await client.get(
        f"https://query1.finance.yahoo.com/v8/finance/chart/{symbol}.NS", timeout=None,
    )

Подход 2 - исполнитель ThreadPool

async def test_threads():
    with ThreadPoolExecutor(max_workers=len(symbols)) as pool, httpx.Client() as client:
        loop = asyncio.get_event_loop()

        await asyncio.gather(
            *(
                loop.run_in_executor(pool, fetch_sync_fn(client, symbol))
                for symbol in symbols
            )
        )


def fetch_sync_fn(client, symbol):
    def fn():
        client.get(
            f"https://query1.finance.yahoo.com/v8/finance/chart/{symbol}.NS",
            timeout=None,
        )

    return fn

Результаты на MacBook Pro 2013 года

In [3]: %timeit asyncio.run(test_threads())                                                                                                                                                          
1.41 s ± 87.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [4]: %timeit asyncio.run(test_async())                                                                                                                                                            
1.24 s ± 62.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

Результаты на сервере Digital Ocean 5 $

In [4]: %timeit asyncio.run(test_threads())
5.94 s ± 66.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [3]: %timeit asyncio.run(test_async())
10.7 s ± 97.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

Результаты на Google colab

%timeit loop.run_until_complete(test_threads())
1 loop, best of 3: 723 ms per loop
%timeit loop.run_until_complete(test_async())
1 loop, best of 3: 597 ms per loop

Вопросы

  1. В чем причина такого несоответствия? Почему на сервере есть другой победитель, а не на локальной машине?
  2. Почему оба теста медленнее на сервере? Разве чистая сетевая задача не должна выполняться быстрее на сервере с более быстрым сетевым подключением?

Полный код как github gist

...