Текстовые файлы для проверки работоспособности поисковой системы - PullRequest
1 голос
/ 18 декабря 2011

В целях подготовки к предстоящему конкурсу по программированию я создаю очень базовую поисковую систему на C #, которая принимает запрос от пользователя (например, "Markov Decision Process") и выполняет поиск по парефайлы, чтобы найти наиболее релевантный для запроса.

Приложение работает (я использовал матричный алгоритм терм-документа).

Но теперь я хотел бы проверить функциональностьпоисковой системы, чтобы увидеть, если она действительно работает правильно.Я попытался взять пару статей из Википедии, сохранить их как .txt файлы и протестировать их, но я просто не вижу, работает ли он достаточно быстро (даже с некоторыми таймерами).

Мой вопрос, Есть ли веб-сайт, который показывает пару файлов для тестирования поисковой системы (вместе с логически ожидаемым результатом)?

Пока я тестирую со здравым смыслом, но этобыло бы здорово быть уверенным в моих результатах.

Кроме того, как я могу получить коллекцию .txt файлов (возможно, более 10 000+ файлов) на различные темы, чтобы проверить, достаточно ли быстро работает мое приложение?

Я попытался скопировать несколько статей из Википедии, но это заняло бы way слишком много времени.Я также думал о том, чтобы сделать какой-нибудь сценарий, чтобы сделать это для меня, но я действительно не знаю, как это сделать.

Итак, где я могу найти множество файлов с разделенными предметами?

В противном случае, как я могу протестировать свое приложение?

Примечание: я предполагаю, что это простой большой .txt файл, где каждая строка представляет «файл» о предметесделал бы работу тоже.

Ответы [ 3 ]

2 голосов
/ 18 декабря 2011

Один источник текстовых файлов будет Project Gutenberg . Они предоставляют образы CD / DVD , если вы хотите загрузить тысячи файлов одновременно. (На странице это не указано, но я бы предположил, что они находятся в формате txt внутри CD / DVD iso.)

1 голос
/ 18 декабря 2011

Вы можете использовать наборы данных с сайта GroupLens Research .

Некоторые образцы: фильмы , книги

1 голос
/ 18 декабря 2011

Вы можете получить страницы Википедии, используя рекурсивную функцию и загружая html со всех страниц, на которые ссылается одна заданная страница.

, если у вас есть некоторый опыт работы с c #, это должно помочь вам: http://www.csharp -station.com / HowTo / HttpWebFetch.aspx

, затем переберите текст и соберите все экземпляры текста: "<a href=\"" и рекурсивно вызовите этот метод.Вы также должны использовать счетчик, чтобы ограничить количество рекурсий.

Кроме того, чтобы предотвратить исключения OutOfMemory, вы должны остановить метод, когда он достигает кратных некоторого числа итераций, и записать все в файл.Затем сбросьте старые данные из строки

...