Я заинтересован в загрузке необработанного текста небольшого набора из 10-ти мегапикселей AWS Common Crawl в качестве корпуса для тестов по поиску информации.
Страницы Common Crawl предполагают, что мне нужна учетная запись S3 и / или Java-программа для доступа к ней, а затем я просматриваю просеивание 100 ГБ данных, когда все, что мне нужно, - это несколько десятков мегабайт.
Здесь есть некоторый код , но для него требуется учетная запись S3 и доступ (хотя я люблю Python).
Есть ли способ, которым я могу сформировать URL http (s)что позволит мне получить крошечное поперечное сечение для моих целей?Мне кажется, я посмотрел страницу, которая предложила способ структурировать каталог по дням, часам, минутам, но я не могу найти эту страницу снова.
Спасибо!