Как получить простой текст с отформатированного веб-сайта для использования в UIWebView - PullRequest
0 голосов
/ 07 декабря 2011

Не уверен, возможно ли то, что я хочу сделать, но я надеюсь как-то собрать некоторые фрагменты текста с веб-сайта, удалить верхний колонтитул, нижний колонтитул, фон, все форматирование и поместить его в мое приложение вскроллвью или что-то подобное ...

Я приведу вам пример ... Представьте, что я делаю приложение для Википедии для iPhone, я хочу скачать информацию о вики на собаках, без заголовка, боковых панелейи т. д., только текст.Как мне поступить так?

Я понимаю, что для этого я не предоставил пример кода или того, что я пробовал или начал, но это только потому, что в этом случае я потерян!Это не значит, что я тоже хочу полные куски кода.Любая помощь подойдет.Если это не сработает, мне просто нужно будет сделать «оптимизированную для мобильных устройств» версию веб-страниц, которую я хочу включить в свое приложение.

Спасибо

(Изменить: термин, который я былпытался использовать «лишить веб-страницу ее HTML-кодировки»)

Ответы [ 2 ]

0 голосов
/ 07 декабря 2011

Возможно, вы поступаете неправильно, или даже задаете неправильный вопрос.

Есть ли на целевом веб-сайте API или какой-либо поток данных? Можете ли вы получить необходимую информацию в формате JSON или XML непосредственно с сайта?

Я думаю, вы неправильно поняли технологию. HTML - это просто фреймворк, на котором основаны форматирование и данные.

Анализ HTML-страницы кажется ужасно большой головной болью, я сомневаюсь, что вы когда-нибудь сможете заставить ее работать, потому что почти все сайты в наши дни частично или полностью генерируются на стороне сервера, страница является лишь результатом .

Некоторые сайты скрывают информацию в памяти, а другие динамически получают ее, например, через ajax, что означает, что простая попытка получить данные путем анализа HTML приведет к получению нулевого значения.

Еще одна проблема, о которой вам следует знать, это то, что простое копирование данных с созданных веб-сайтов может привести к проблемам с авторским правом.

0 голосов
/ 07 декабря 2011

Вы должны проанализировать html-код, найти нужную деталь и «выбросить» ненужную. Это более или менее похоже на брутфорсинг, и код сайта не должен меняться, иначе вы облажались. Таким образом, вы должны написать парсер вручную с помощью этого метода. Но, возможно, есть канал Atom или RSS, и вы можете разобрать этот. Это будет намного проще, и вы не зависите от макета сайта, потому что фид rss / atom относится только к данным. Для разбора rss вы можете попробовать NSXMLParser. И затем вы должны сделать из данных действительную HTML-страницу и представить ее в UIWebView

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...