Question

Я разрабатываю синтаксический анализатор в ruby, который анализирует некоторые неоднородные текстовые данные. Кто-нибудь может сказать мне, где я могу получить большое количество незашифрованных данных для этого?

mu is too short · Answer 1 · 26 апреля 2011

Вы можете очистить Википедию (или просто пропустить ее через lynx -dump).Это также даст вам обширный источник неанглийского текста. Project Gutenberg был бы еще одним хорошим источником большого количества простого текста.

intellidiot · Answer 2 · 26 апреля 2011

Вот вы получите список из многих:

http://www.quora.com/Data/Where-can-I-get-large-datasets-open-to-the-public

И мой фаворит:

http://ftp.sunet.se/mirror/archive/ftp.sunet.se/pub/tv+movies/imdb/

Огромное количество незашифрованных данных для анализа парсинга

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Огромное количество незашифрованных данных для анализа парсинга

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы