Question

Я заинтересован в загрузке необработанного текста небольшого набора из 10-ти мегапикселей AWS Common Crawl в качестве корпуса для тестов по поиску информации.

Страницы Common Crawl предполагают, что мне нужна учетная запись S3 и / или Java-программа для доступа к ней, а затем я просматриваю просеивание 100 ГБ данных, когда все, что мне нужно, - это несколько десятков мегабайт.

Здесь есть некоторый код , но для него требуется учетная запись S3 и доступ (хотя я люблю Python).

Есть ли способ, которым я могу сформировать URL http (s)что позволит мне получить крошечное поперечное сечение для моих целей?Мне кажется, я посмотрел страницу, которая предложила способ структурировать каталог по дням, часам, минутам, но я не могу найти эту страницу снова.

Спасибо!

Sebastian Nagel · Answer 1 · 23 мая 2019

Это довольно просто: просто выберите случайным образом один файл WARC (WAT или WET) из любого ежемесячного сканирования. Сканирования объявляются здесь: https://commoncrawl.org/connect/blog/

принять последнее сканирование (например, апрель 2019 )
перейдите к списку файлов WARC и загрузите его (то же самое для WAT или WET)
случайным образом выберите один
префикс пути с https://commoncrawl.s3.amazonaws.com/ (описание в сообщении в блоге есть) и загрузка его

Вы проиграли, потому что каждый файл WARC / WAT / WET сам по себе является случайной выборкой. Вам нужно больше данных: просто выберите больше файлов наугад.

Загрузите небольшой образец AWS Common Crawl на локальную машину через http

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Загрузите небольшой образец AWS Common Crawl на локальную машину через http

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы