НЛП: Создание (небольших) корпусов или «Где взять много не слишком специализированных текстовых файлов на английском языке? - PullRequest
5 голосов
/ 26 сентября 2008

У кого-нибудь есть предложения, где можно найти архивы или коллекции повседневного английского текста для использования в небольшом корпусе? Я использовал книги Gutenberg Project для рабочего прототипа и хотел бы включить более современный язык. недавний ответ здесь косвенно указывал на большой архив обзоров фильмов usenet , который мне не приходил в голову, и который очень хорош. Для этой конкретной программы технические архивы usenet или программные списки рассылки могут отклонить результаты и их будет сложно проанализировать, но любой вид общего текста блога, стенограммы чата или что-либо, что могло бы быть полезным для других, было бы очень полезно. Кроме того, очень ценится частичный или загружаемый исследовательский корпус, который не слишком размечен, или некоторая эвристика для поиска подходящего подмножества статей в Википедии или любой другой идеи.

(Кстати, я являюсь хорошим гражданином без загрузки, использую намеренно медленный скрипт, который не требует от серверов, размещающих такой материал, на случай, если вы почувствуете моральную опасность, указав мне на что-то огромное.)

ОБНОВЛЕНИЕ : пользователь S0rin указывает, что википедия не запрашивает сканирование, и предоставляет этот инструмент экспорта . У Project Gutenberg есть политика, указанная здесь , в нижней строке, попробуйте не сканировать, но если вам нужно: «Настройте своего робота на ожидание не менее 2 секунд между запросами».

ОБНОВЛЕНИЕ 2 Свалки в Википедии - путь, благодаря ответчикам, которые указали на них. Я закончил тем, что использовал английскую версию отсюда: http://download.wikimedia.org/enwiki/20090306/ и испанский дамп примерно вдвое меньше. Они - некоторая работа по очистке, но они того стоят, и они содержат много полезных данных в ссылках.


Ответы [ 7 ]

8 голосов
/ 26 сентября 2008
  • Используйте дампы Википедии
    • нуждается в большом количестве очистки
  • Посмотрите, поможет ли вам что-нибудь в nltk-data
    • Корпуса обычно довольно маленькие
  • Дурацкие люди имеют несколько бесплатных корпусов
    • помечены
    • вы можете создать свой собственный корпус, используя их инструментарий
  • Europarl бесплатно и является основой практически любой академической системы MT
    • разговорный язык, перевод
  • Reuters Corpora бесплатны, но доступны только на CD

Вы всегда можете получить свои собственные, но будьте осторожны: HTML-страницы часто нуждаются в тщательной очистке, поэтому ограничивайтесь RSS-лентами.

Если вы делаете это коммерчески, LDC может быть жизнеспособной альтернативой.

4 голосов
/ 26 сентября 2008

Википедия звучит как путь. Существует экспериментальный Wikipedia API , который может быть полезен, но я понятия не имею, как он работает. До сих пор я только очищал Википедию с заказными пауками или даже wget.

Тогда вы можете искать страницы, которые предлагают полный текст статьи в RSS-каналах. RSS, потому что на вашем пути нет HTML-тегов.

Очистка списков рассылки и / или Usenet имеет несколько недостатков: вы получите AOLbonics и Techspeak, и это плохо наклонит ваш корпус.

Классическими корпусами являются Penn Treebank и British National Corpus, но за них платят. Вы можете прочитать архивы списков Корпора или даже спросить их об этом. Возможно, вы найдете полезные данные, используя Web как инструменты Corpus .

У меня фактически небольшой проект в разработке, который позволяет лингвистическую обработку произвольных веб-страниц. Он должен быть готов к использованию в течение ближайших нескольких недель, но пока он не предназначен для использования в качестве скребка. Но я мог бы написать для него модуль, наверное, функциональность уже есть.

1 голос
/ 16 мая 2009

Википедия кажется лучшим способом. Да, вы должны проанализировать вывод. Но благодаря категориям Википедии вы можете легко получить различные типы статей и слов. например анализируя все научные категории, вы можете получить много научных слов. Подробная информация о местах будет перенаправлена ​​на географические названия и т. Д.

1 голос
/ 11 октября 2008

Если вы готовы платить деньги, вам следует проверить данные, доступные в Консорциуме лингвистических данных, например в Penn Treebank.

0 голосов
/ 30 января 2014

Вы можете получить цитаты контента (в ограниченной форме) здесь: http://quotationsbook.com/services/

Этот контент также находится на Freebase.

0 голосов
/ 27 сентября 2008

Просматривая данные википедии, я заметил, что они сделали некоторый анализ телепрограмм и сценариев фильмов . Я подумал, что это может быть интересный текст, но не всегда доступен - оказывается, он везде, и он достаточно структурирован и предсказуем, чтобы его можно было очистить. Этот сайт , озаглавленный «Куча сценариев фильмов и сценариев в одном месте в сети», вероятно, будет полезен всем, кто сталкивается с этой темой с подобным вопросом.

0 голосов
/ 26 сентября 2008

Вы охватили очевидные. Единственные другие области, о которых я могу думать, тоже дополняют:

1) Новостные статьи / блоги.

2) Журналы публикуют много бесплатных материалов в Интернете, и вы можете получить хороший раздел тем.

...