Получение краткой статьи Википедии с помощью NSScanner Problem - PullRequest
1 голос
/ 22 сентября 2010

Я пытаюсь получить краткое изложение статьи и загрузить ее в виде строки.Это прекрасно работает с некоторыми статьями, но веб-сайт Википедии непоследователен.Так что NSScanner довольно часто дает сбой, в то время как он отлично работает для других статей.

Вот моя реализация NSScanner:

NSString *separatorString = @"<table id=\"toc\" class=\"toc\">";                                 
NSScanner *aScanner = nil;
NSString *container = nil;
NSString *muString = [NSString stringWithString:@"</table>"];

aScanner = [NSScanner scannerWithString:string];  
[aScanner setScanLocation:0];                                                   
[aScanner scanUpToString:muString intoString:nil];           
[aScanner scanString:muString intoString:nil];    

[aScanner scanUpToString:separatorString intoString:&container];

Как это можно улучшить?Или есть другой способ получить это?

Чтобы визуализировать, какой бит статьи я хочу, вот пример:

http://en.wikipedia.org/wiki/Indigo

из этого я бы хотел все от "Индиго это цвет наэлектромагнитный спектр «до» на английском языке был в 1289 году.

Спасибо!

1 Ответ

1 голос
/ 22 сентября 2010

Вы можете использовать DOM API WebKit для обхода реальной структуры, вместо того, чтобы пытаться анализировать текст вслепую.

...