Простой пример HTML-разбора libxml2 с использованием Objective-c, Xcode и HTMLparser.h - PullRequest
9 голосов
/ 11 июня 2010

Пожалуйста, кто-нибудь может показать мне простой пример парсинга HTML с использованием libxml.

#import <libxml2/libxml/HTMLparser.h>

NSString *html = @"<ul>"
    "<li><input type=\"image\" name=\"input1\" value=\"string1value\" /></li>"
    "<li><input type=\"image\" name=\"input2\" value=\"string2value\" /></li>"
  "</ul>"
  "<span class=\"spantext\"><b>Hello World 1</b></span>"
  "<span class=\"spantext\"><b>Hello World 2</b></span>";

1) Скажем, я хочу проанализировать значение ввода, имя которого = input2.

Должен вывести «string2value».

2) Скажем, я хочу проанализировать внутреннее содержимое каждого тега span, у которого class = spantext.

Должны вывести: «Hello World 1» и «Hello World 2».

Ответы [ 2 ]

19 голосов
/ 11 июня 2010

Я использовал HTML Parser Бена Ривза , чтобы добиться того, что я хотел:

NSError *error = nil;
NSString *html = 
    @"<ul>"
        "<li><input type='image' name='input1' value='string1value' /></li>"
        "<li><input type='image' name='input2' value='string2value' /></li>"
    "</ul>"
    "<span class='spantext'><b>Hello World 1</b></span>"
    "<span class='spantext'><b>Hello World 2</b></span>";
HTMLParser *parser = [[HTMLParser alloc] initWithString:html error:&error];

if (error) {
    NSLog(@"Error: %@", error);
    return;
}

HTMLNode *bodyNode = [parser body];

NSArray *inputNodes = [bodyNode findChildTags:@"input"];

for (HTMLNode *inputNode in inputNodes) {
    if ([[inputNode getAttributeNamed:@"name"] isEqualToString:@"input2"]) {
        NSLog(@"%@", [inputNode getAttributeNamed:@"value"]); //Answer to first question
    }
}

NSArray *spanNodes = [bodyNode findChildTags:@"span"];

for (HTMLNode *spanNode in spanNodes) {
    if ([[spanNode getAttributeNamed:@"class"] isEqualToString:@"spantext"]) {
        NSLog(@"%@", [spanNode allContents]); //Answer to second question
    }
}

[parser release];
1 голос
/ 27 февраля 2012

Как сказал Владимир, для второго пункта важно заменить rawContents на Contents. rawContents напечатает полный текстовый узел, т. е .:

<span class='spantext'><b>Hello World 1</b></span>
...