Загрузите небольшой образец AWS Common Crawl на локальную машину через http - PullRequest
0 голосов
/ 19 апреля 2019

Я заинтересован в загрузке необработанного текста небольшого набора из 10-ти мегапикселей AWS Common Crawl в качестве корпуса для тестов по поиску информации.

Страницы Common Crawl предполагают, что мне нужна учетная запись S3 и / или Java-программа для доступа к ней, а затем я просматриваю просеивание 100 ГБ данных, когда все, что мне нужно, - это несколько десятков мегабайт.

Здесь есть некоторый код , но для него требуется учетная запись S3 и доступ (хотя я люблю Python).

Есть ли способ, которым я могу сформировать URL http (s)что позволит мне получить крошечное поперечное сечение для моих целей?Мне кажется, я посмотрел страницу, которая предложила способ структурировать каталог по дням, часам, минутам, но я не могу найти эту страницу снова.

Спасибо!

1 Ответ

1 голос
/ 23 мая 2019

Это довольно просто: просто выберите случайным образом один файл WARC (WAT или WET) из любого ежемесячного сканирования. Сканирования объявляются здесь: https://commoncrawl.org/connect/blog/

  1. принять последнее сканирование (например, апрель 2019 )
  2. перейдите к списку файлов WARC и загрузите его (то же самое для WAT или WET)
  3. случайным образом выберите один
  4. префикс пути с https://commoncrawl.s3.amazonaws.com/ (описание в сообщении в блоге есть) и загрузка его

Вы проиграли, потому что каждый файл WARC / WAT / WET сам по себе является случайной выборкой. Вам нужно больше данных: просто выберите больше файлов наугад.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...