В целях подготовки к предстоящему конкурсу по программированию я создаю очень базовую поисковую систему на C #, которая принимает запрос от пользователя (например, "Markov Decision Process"
) и выполняет поиск по парефайлы, чтобы найти наиболее релевантный для запроса.
Приложение работает (я использовал матричный алгоритм терм-документа).
Но теперь я хотел бы проверить функциональностьпоисковой системы, чтобы увидеть, если она действительно работает правильно.Я попытался взять пару статей из Википедии, сохранить их как .txt
файлы и протестировать их, но я просто не вижу, работает ли он достаточно быстро (даже с некоторыми таймерами).
Мой вопрос, Есть ли веб-сайт, который показывает пару файлов для тестирования поисковой системы (вместе с логически ожидаемым результатом)?
Пока я тестирую со здравым смыслом, но этобыло бы здорово быть уверенным в моих результатах.
Кроме того, как я могу получить коллекцию .txt
файлов (возможно, более 10 000+ файлов) на различные темы, чтобы проверить, достаточно ли быстро работает мое приложение?
Я попытался скопировать несколько статей из Википедии, но это заняло бы way слишком много времени.Я также думал о том, чтобы сделать какой-нибудь сценарий, чтобы сделать это для меня, но я действительно не знаю, как это сделать.
Итак, где я могу найти множество файлов с разделенными предметами?
В противном случае, как я могу протестировать свое приложение?
Примечание: я предполагаю, что это простой большой .txt
файл, где каждая строка представляет «файл» о предметесделал бы работу тоже.