Question

Я подумываю о том, чтобы начать проект, чтобы я мог узнать больше и сохранить вещи, которые я выучил, от ржавчины.

Многие проекты будут новыми, поэтому я решил приехать сюда и спросить совета, что делать и как это делать.

Я наслаждаюсь фотошопом и играю с ним, поэтому я подумал, что смогу смешать свой проект с чем-то в этом роде. Поэтому я решил, что моя программа будет делать что-то вроде новых ресурсов для фотошопа, помещая их в свою папку на моем компьютере. (от deviantart на данный момент)

А сейчас я хочу сосредоточиться на такой странице:

http://browse.deviantart.com/resources/applications/psbrushes/?order=9

Я не очень хорошо понимаю, что происходит в html-источнике, поэтому немного сложно понять, что происходит.

Но допустим, я на этой странице, и у меня выбраны следующие опции:

Sorted by Popular
Sorted by All Time 
Sorted by 24 Items Per Page

Моя цель - по отдельности перейти к каждому эскизу и получить следующее:

The Author
The Title
The Description
Download the File (create folder based on title name)
Download the Image (place in folder with the file above)
Create text file with the author, title, and description in it

Я хотел бы сделать это для каждого из 24 пунктов на странице, а затем перейти на следующую страницу и сделать то же самое. (Я думаю о том, чтобы просто просмотреть первые пять страниц, так как я не слишком заинтересован в том, чтобы попробовать не слишком популярные кисти)

Итак, я публикую это для чувства направления и, возможно, некоторой помощи о том, как разобрать такую страницу, чтобы получить то, что я ищу. Я уверен, что этот проект займет меня некоторое время, но я надеюсь, что он станет полезным в обучении меня.

Любая помощь и предложения всегда приветствуются.

.

РЕДАКТИРОВАТЬ

Каждая страница состоит из 24 из них:

<div class="tt-a" usericon="http://a.deviantart.net/avatars/s/h/shad0w-gfx.gif" collect_rid="1:19982524">
 <span class="shad0w" style="background-image: url ("http://sh.deviantart.net/shad0w/x/107/150/logo3.png");">
  <a class="t" title="Shad0ws Blood Brush Set by ~Shad0w-GFX, Jun 28, 2005" href="http://Shad0w-GFX.deviantart.com/art/Shad0ws-Blood-Brush-Set-19982524?q=boost%3Apopular+in%3Aresources%2Fapplications%2Fpsbrushes&qo-0">Shad0ws Blood Brush Set</a>

Я предполагаю, что я хочу получить всю свою информацию из:

<a class="t" ... >

Поскольку он содержит заголовок, автора и ссылку, по которой находится URL-адрес загрузки, и большое изображение.

Если это звучит правильно, как можно получить эту информацию для каждого объекта на странице. (24 на страницу) Я бы предположил, используя CyberNeko. Я просто не совсем уверен, как добраться до нужного уровня, где находится и для каждого из них на странице

.

РЕДАКТИРОВАТЬ # 2

У меня есть тестовый код, который выглядит следующим образом:

divs = []
client = new WebClient(BrowserVersion.FIREFOX_3)
client.javaScriptEnabled = false

page = client.getPage("http://browse.deviantart.com/resources/applications/psbrushes/?order=9&offset=0")

divs = page.getByXPath("//html/body/div[2]/div/div/table/tbody/tr/td[2]/div/div[5]/div/div[2]/span/a[@class='t']")

divs.each { println it }

XPath верен, но выводит:

<?xml version="1.0" encoding="UTF-8"?><a href="http://Shad0w-GFX.deviantart.com/

искусство / Shad0ws-Blood-Brush-Set-19982524? Д = подталкивание% 3Apopular + в% 3Aresources% 2Fapplicat ion% 2Fpsbrushes & qo = 0 "class =" t "title =" Кровавая кисть Shad0ws, установленная ~ Shad0w-G FX, 28 июня 2005 г. "> Набор кистей для крови Shad0ws

Можете ли вы объяснить, что мне нужно сделать, чтобы просто получить оттуда href? Есть ли простой способ сделать это с помощью HtmlUnit?

Dónal · Answer 1 · 19 ноября 2010

Соблюдение перечисленных выше требований на самом деле довольно просто.Вы, вероятно, можете сделать это с помощью простого Groovy-скрипта длиной около 50 строк.Вот как я могу это сделать:

URL-адрес первой страницы: http://browse.deviantart.com/resources/applications/psbrushes/?order=9&offset=0

Чтобы получить следующую страницу, просто увеличьте значение параметра offset на 24: http://browse.deviantart.com/resources/applications/psbrushes/?order=9&offset=24

Итак, теперь вы знаете, как создать URL для страниц, с которыми вам нужно работать.Чтобы загрузить содержимое этой страницы, используйте:

def pageUrl = 'http://browse.deviantart.com/resources/applications/psbrushes/?order=9&offset=0'

// get the content as a byte array
byte[] pageContent = new URL(pageUrl).bytes

// or get the content as a String
String pageContentAsString = new URL(pageUrl).text

Теперь все, что вам нужно сделать, - это проанализировать элементы содержимого, которые вас интересуют, и сохранить его в файлах.Для разбора вы должны использовать HTML-парсер, такой как CyberNeko или Иерихон .

Groovy Project (html-разбор, загрузка файлов, создание файлов)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Groovy Project (html-разбор, загрузка файлов, создание файлов)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы