Российский корпус документов для поисковой системы - PullRequest
1 голос
/ 04 мая 2009

Я работаю над межъязыковым поиском информации, который принимает запросы на английском языке и ищет документы на русском языке. Для оценки этой системы было бы неплохо иметь коллекцию русских документов для поиска. Кто-нибудь знает о коллекции документов, которые я могу найти, или о веб-сайтах, с которых я могу легко собрать кучу русских документов (кроме Википедии)?

Документы могут быть о чем угодно, хотя было бы неплохо, если бы они были в какой-то конкретной области человеческих знаний (CS, архитектура, инженерия, искусство, анализ литературы, что угодно ...)

1 Ответ

1 голос
/ 04 мая 2009

Не знаю, ищите ли вы это, но это поток российских национальных стандартов и законов Они представлены в формате dBase4, а объем данных составляет приблизительно 57,3 ГБ.

...