У кого-нибудь есть предложения, где можно найти архивы или коллекции повседневного английского текста для использования в небольшом корпусе? Я использовал книги Gutenberg Project для рабочего прототипа и хотел бы включить более современный язык. недавний ответ здесь косвенно указывал на большой архив обзоров фильмов usenet , который мне не приходил в голову, и который очень хорош. Для этой конкретной программы технические архивы usenet или программные списки рассылки могут отклонить результаты и их будет сложно проанализировать, но любой вид общего текста блога, стенограммы чата или что-либо, что могло бы быть полезным для других, было бы очень полезно. Кроме того, очень ценится частичный или загружаемый исследовательский корпус, который не слишком размечен, или некоторая эвристика для поиска подходящего подмножества статей в Википедии или любой другой идеи.
(Кстати, я являюсь хорошим гражданином без загрузки, использую намеренно медленный скрипт, который не требует от серверов, размещающих такой материал, на случай, если вы почувствуете моральную опасность, указав мне на что-то огромное.)
ОБНОВЛЕНИЕ : пользователь S0rin указывает, что википедия не запрашивает сканирование, и предоставляет этот инструмент экспорта . У Project Gutenberg есть политика, указанная здесь , в нижней строке, попробуйте не сканировать, но если вам нужно: «Настройте своего робота на ожидание не менее 2 секунд между запросами».
ОБНОВЛЕНИЕ 2 Свалки в Википедии - путь, благодаря ответчикам, которые указали на них. Я закончил тем, что использовал английскую версию отсюда: http://download.wikimedia.org/enwiki/20090306/ и испанский дамп примерно вдвое меньше. Они - некоторая работа по очистке, но они того стоят, и они содержат много полезных данных в ссылках.