Question

В целях подготовки к предстоящему конкурсу по программированию я создаю очень базовую поисковую систему на C #, которая принимает запрос от пользователя (например, "Markov Decision Process") и выполняет поиск по парефайлы, чтобы найти наиболее релевантный для запроса.

Приложение работает (я использовал матричный алгоритм терм-документа).

Но теперь я хотел бы проверить функциональностьпоисковой системы, чтобы увидеть, если она действительно работает правильно.Я попытался взять пару статей из Википедии, сохранить их как .txt файлы и протестировать их, но я просто не вижу, работает ли он достаточно быстро (даже с некоторыми таймерами).

Мой вопрос, Есть ли веб-сайт, который показывает пару файлов для тестирования поисковой системы (вместе с логически ожидаемым результатом)?

Пока я тестирую со здравым смыслом, но этобыло бы здорово быть уверенным в моих результатах.

Кроме того, как я могу получить коллекцию .txt файлов (возможно, более 10 000+ файлов) на различные темы, чтобы проверить, достаточно ли быстро работает мое приложение?

Я попытался скопировать несколько статей из Википедии, но это заняло бы way слишком много времени.Я также думал о том, чтобы сделать какой-нибудь сценарий, чтобы сделать это для меня, но я действительно не знаю, как это сделать.

Итак, где я могу найти множество файлов с разделенными предметами?

В противном случае, как я могу протестировать свое приложение?

Примечание: я предполагаю, что это простой большой .txt файл, где каждая строка представляет «файл» о предметесделал бы работу тоже.

Matthew Strawbridge · Answer 1 · 18 декабря 2011

Один источник текстовых файлов будет Project Gutenberg . Они предоставляют образы CD / DVD , если вы хотите загрузить тысячи файлов одновременно. (На странице это не указано, но я бы предположил, что они находятся в формате txt внутри CD / DVD iso.)

L.B · Answer 2 · 18 декабря 2011

Вы можете использовать наборы данных с сайта GroupLens Research .

Некоторые образцы: фильмы , книги

annonymously · Answer 3 · 18 декабря 2011

Вы можете получить страницы Википедии, используя рекурсивную функцию и загружая html со всех страниц, на которые ссылается одна заданная страница.

, если у вас есть некоторый опыт работы с c #, это должно помочь вам: http://www.csharp -station.com / HowTo / HttpWebFetch.aspx

, затем переберите текст и соберите все экземпляры текста: "<a href=\"" и рекурсивно вызовите этот метод.Вы также должны использовать счетчик, чтобы ограничить количество рекурсий.

Кроме того, чтобы предотвратить исключения OutOfMemory, вы должны остановить метод, когда он достигает кратных некоторого числа итераций, и записать все в файл.Затем сбросьте старые данные из строки

Текстовые файлы для проверки работоспособности поисковой системы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Текстовые файлы для проверки работоспособности поисковой системы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы