Вопросы с тегом HTML-контент-экстракция

2 голосов

2 ответов

Извлечение XQuery между двумя тегами

В настоящее время я работаю над извлечением данных из HTML.Я хотел бы извлечь текст между двумя...

Technocrat / 25 июня 2010

0 голосов

1 ответ

Разбор текста Xquery с тегами <a>

Я использую XQuery для извлечения контента из HTML-страниц.Структура HTML-тела имеет следующий вид:...

Technocrat / 25 июня 2010

4 голосов

3 ответов

Получить отрендеренный текст из HTML (Delphi)

У меня есть немного HTML, и мне нужно извлечь фактический письменный текст со страницы. До сих пор...

Daisetsu / 09 июня 2010

12 голосов

6 ответов

Есть ли для Python что-то вроде readability.js?

Я ищу пакет / модуль / функцию и т. Д., Который примерно соответствует Python-эквиваленту Arc90...

Emre Sevinç / 27 мая 2010

0 голосов

1 ответ

Как извлечь содержимое HTML с помощью Regex в PHP

Я знаю, я знаю ... регулярное выражение - не лучший способ извлечь текст HTML. Но мне нужно извлечь...

HyderA / 12 мая 2010

0 голосов

2 ответов

Как Facebook извлекает правильный эскиз ссылки?

Мне интересно, как фейсбук извлекает правильную картинку статьи из ссылки? они игнорируют любые...

Ryan / 11 мая 2010

0 голосов

2 ответов

Извлечение ссылок на новости с сайта новостей

Есть ли надежный способ узнать коллекцию ссылок, которая направляет нас на детальную новостную...

Ali / 03 мая 2010

4 голосов

2 ответов

Получение BeautifulSoup, чтобы найти конкретный <p>

Я пытаюсь собрать базовый HTML-скребок для различных сайтов научных журналов, в частности, чтобы...

Ryan / 26 марта 2010

0 голосов

5 ответов

Переменные сессии PHP

Пользователь нажмет на ссылку, которая откроет новую страницу (код ниже).Моя проблема в том, что...

Michael / 19 февраля 2010

1 голос

4 ответов

Использование jQuery для захвата контента

Я пытаюсь получить пару переменных из следующего блока HTML. Если вы не против помочь, это будет с...

Mike B. / 19 января 2010

1 голос

4 ответов

Как получить контент из таблицы, используя ее идентификатор с регулярным выражением?

Мне нужно отсортировать строку html, чтобы получить необходимое содержимое. Теперь мне нужно...

Dejan.S / 18 января 2010

1 голос

2 ответов

Использование модуля Beautiful Soup Python для замены тегов простым текстом

Я использую Beautiful Soup для извлечения «контента» из веб-страниц. Я знаю, что некоторые люди...

Ecognium / 14 января 2010

17 голосов

8 ответов

Каково состояние дел в извлечении контента HTML?

Существует много научных работ по извлечению контента HTML, например, Gupta & Kaiser (2005)...

Charles Stewart / 26 декабря 2009

1 голос

2 ответов

Любые идеи о эквиваленте JQuery кода READABILITY? (Или: построение наилучшей эвристики для поиска основного текста с использованием jQuery)

http://lab.arc90.com/experiments/readability/ - очень удобный инструмент для удобного просмотра...

Emre Sevinç / 22 декабря 2009

1 голос

2 ответов

YQL царапает весь сайт / домен

Я пытаюсь получить набор ссылок и контента из домена. Запрос в Google будет "site:www

Chris Barry / 21 декабря 2009

108 голосов

8 ответов

BeautifulSoup Grab Видимый текст веб-страницы

По сути, я хочу использовать BeautifulSoup для строгого захвата видимого текста на веб-странице....

user233864 / 20 декабря 2009

3 голосов

5 ответов

Очистка экрана HTTPS с использованием C #

Как отсканировать экран HTTPS с помощью C #?

Jignesh / 04 декабря 2009

11 голосов

3 ответов

Как я могу прочитать и разобрать содержимое веб-страницы в R

Я хотел бы прочитать содержимое URL (например, http://www.haaretz.com/) в R. Мне интересно, как я...

Mark / 04 декабря 2009

0 голосов

2 ответов

Извлечение HTML-элементов в данном регионе?

Учитывая область, определенную прямоугольником и URL-адресом, есть ли способ определить, какие...

Paul Wicks / 01 декабря 2009

1 голос

5 ответов

Как извлечь данные из необработанного HTML-файла

Есть ли способ извлечь нужные данные из необработанного html, который был написан не семантически...

apnerve / 30 ноября 2009

1 голос

3 ответов

Beautifulsoup получить значение в таблице

пытаюсь поцарапать http://www.co.jefferson.co.us/ats/displaygeneral.do?sch=000104 и получите «Имя...

Vincent / 30 ноября 2009

7 голосов

2 ответов

BeautifulSoup - простой способ получения содержимого без HTML

Я использую этот код, чтобы найти все интересные ссылки на странице: soup.findAll('a',...

Andrea Ambu / 18 ноября 2009

2 голосов

3 ответов

Соскоб с wsj.com или finance.yahoo.com

Я хочу отобразить на странице WordPress общий объем акций, проданных на фондовой бирже NYSE за...

pg. / 14 ноября 2009

6 голосов

3 ответов

Как сохранить веб-страницу программно?

Я хочу сохранить веб-страницу программно. Я не имею в виду просто сохранить HTML. Я также хотел бы...

Joseph Turian / 14 ноября 2009

5 голосов

7 ответов

Какой лучший способ написать поддерживаемое веб-приложение?

Некоторое время назад я написал Perl-скрипт, который входил в мой онлайн-банкинг и каждый день...

Benj / 09 ноября 2009