Parse Wiktionary - PullRequest
       20

Parse Wiktionary

5 голосов
/ 06 декабря 2011

Есть ли библиотека .Net для анализа страниц, которые я получил через API MediaWiki? Стандартный парсер mediawiki, который мог бы просто давать заголовки и данные в чистых данных, был бы хорош, но я бы предпочел иметь тот, который специально подходит для викисловаря, который мог бы дать мне, какой это тип слова и все определения.

Я бы предпочел не писать свой собственный парсер для этого. Есть предложения?

Ответы [ 2 ]

2 голосов
/ 26 сентября 2016

Проект dbnary предоставляет разобранную информацию из Викисловаря в форме RDF.

Если вы хотите, чтобы что-то обрабатывалось еще дальше, я предоставляю файлы SQLite и TEI, сгенерированные из двоичных данных, как часть моего WikDict проекта на download.wikdict.com .

Это на самом деле не отвечает на вопрос о библиотеках .net, но я уверен, что вы легко найдете библиотеки для чтения XML (TEI), SQLite или RDF.

2 голосов
/ 06 декабря 2011

Если вы получите вывод в JSON, вы можете использовать множество опций, как встроенных в .NET, так и внешних по отношению к самой платформе.

Если вы получите вывод в формате XML, опять же, существуют мощные классы XML-манипуляций внутри самой платформы .NET и за ее пределами.

Вам нужно быть более конкретным - предоставить формат и пример вывода.

...