Быстрый метод для чтения и проверки 11 миллионов URL-адресов из текстового файла - PullRequest
0 голосов
/ 16 февраля 2020

Мы проводим стресс-тестирование в одной из наших сред, пытаясь понять, насколько эффективен один из наших рандомизаторов DNS, перебирая проверку DNS из текстового файла, не спрашивая, это один из блестящих планов наших инженеров.

Эта идея привела к возникновению некоторой проблемы с кодированием в команде, и мы не смогли придумать быструю и эффективную строку кода для своевременного прохождения 11 миллионов записей.

В основном У нас есть текстовый файл, содержащий 11 миллионов производных нашего рандомизатора. Мы хотим прочитать каждый URL, проверить, можно ли найти хост, и продолжить, если нет.

Наша первоначальная попытка состояла в том, чтобы сделать это в C#, используя многопоточность, чтобы попытаться запустить x-количество одновременных запросы одновременно. Основываясь на наших расчетах, такой подход потребовал бы 3 месяца для обработки всего файла.

Мы рассмотрели python, а расчеты указывают на 6 недель для обработки одинакового количества записей.

Это не звучит правильно.

Кто-нибудь имеет представление о том, как мы можем работать со всеми этими записями в считанные часы, а не недели? Буду признателен за любые отзывы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...