Question

Мне нужно найти способ отсканировать одно из веб-приложений нашей компании и создать из него статический сайт, который можно записать на компакт-диск и использовать путешествующие продавцы для демонстрации сайта. Внутреннее хранилище данных распределено по многим, многим системам, поэтому просто запуск сайта на виртуальной машине на ноутбуке продавца не будет работать. И у них не будет доступа к интернету, пока у некоторых клиентов (нет интернета, сотовый телефон .... примитивно, я знаю).

Есть ли у кого-нибудь хорошие рекомендации для сканеров, которые могут обрабатывать такие вещи, как очистка ссылок, flash, небольшой ajax, css и т. Д.? Я знаю, что шансы невелики, но я решил выбросить вопрос здесь, прежде чем приступить к написанию своего собственного инструмента.

wprl · Answer 1 · 23 сентября 2008

Используя WebCrawler , например, один из них:

DataparkSearch - это сканер и поисковая система, выпущенная в соответствии с общедоступной лицензией GNU.
GNU Wget - это искатель из командной строки, написанный на C и выпущенный под лицензией GPL. Обычно используется для зеркалирования веб-сайтов и FTP-сайтов.
HTTrack использует сканер для создания зеркала веб-сайта для просмотра в автономном режиме. Он написан на C и выпущен под лицензией GPL.
ICDL Crawler - это межплатформенный веб-сканер, написанный на C ++ и предназначенный для сканирования веб-сайтов на основе шаблонов синтаксического анализа веб-сайтов с использованием только свободных ресурсов ЦП компьютера.
JSpider - это настраиваемый и настраиваемый механизм веб-пауков, выпущенный под лицензией GPL.
Ларбин Себастьен Эйлерет
Webtools4larbin от Андреаса Бедера
Methabot - это оптимизированный по скорости поисковый робот и утилита командной строки, написанный на C и выпущенный по лицензии BSD с 2 пунктами. Он имеет широкую систему конфигурации, модульную систему и поддерживает целевое сканирование через локальную файловую систему, HTTP или FTP.
Jaeksoft WebSearch - это сканер веб-приложений и индексатор, созданный на основе Apache Lucene. Он выпущен под лицензией GPL v3.
Nutch - это сканер, написанный на Java и выпущенный под лицензией Apache. Может использоваться вместе с пакетом индексации текста Lucene.
Pavuk - инструмент веб-зеркала командной строки с дополнительным сканером графического интерфейса пользователя X11, выпущенный под лицензией GPL. Он имеет множество дополнительных функций по сравнению с wget и httrack, например. правила фильтрации и создания файлов на основе регулярных выражений.
WebVac - это сканер, используемый в Stanford WebBase Project.
WebSPHINX (Miller and Bharat, 1998) состоит из библиотеки классов Java, которая реализует многопоточный поиск веб-страниц и синтаксический анализ HTML, и графического пользовательского интерфейса для установки начальных URL-адресов, для извлечения загруженных данных и реализации базовый текстовый поисковик.
WIRE - Среда поиска информации в Интернете [15] - это веб-сканер, написанный на C ++ и выпущенный под лицензией GPL, включающий несколько политик для планирования загрузки страниц и модуль для генерации отчетов и статистики по загруженным страницам, чтобы он использовался для веб-характеристики.
LWP :: RobotUA (Langheinrich, 2004) - это класс Perl для реализации хорошо работающих параллельных веб-роботов, распространяемых по лицензии Perl 5.
Web Crawler Класс веб-искателя с открытым исходным кодом для .NET (написанный на C #).
Шерлок Холмс Шерлок Холмс собирает и индексирует текстовые данные (текстовые файлы, веб-страницы, ...) как локально, так и по сети. Holmes спонсируется и коммерчески используется чешским веб-порталом Centrum. Он также используется Onet.pl.
YaCy, бесплатная распределенная поисковая система, построенная на принципах одноранговых сетей (лицензируется по лицензии GPL).
Ruya Ruya - это высокопроизводительный веб-сканер с широкими возможностями и открытым исходным кодом. Он используется для качественного сканирования английских и японских веб-сайтов. Он выпущен под лицензией GPL и полностью написан на языке Python. Реализация SingleDomainDelayCrawler подчиняется robots.txt с задержкой сканирования.
Universal Information Crawler Быстро развивающийся веб-сканер. Сканирование Сохраняет и анализирует данные.
Ядро агента Инфраструктура Java для управления расписанием, потоками и хранением при сканировании.
Spider News, Информация о создании паука в Perl.
Arachnode.NET, разнородный веб-сканер с открытым исходным кодом для загрузки, индексации и хранения интернет-контента, включая адреса электронной почты, файлы, гиперссылки, изображения и веб-страницы. Arachnode.net написан на C # с использованием SQL Server 2005 и выпущен под лицензией GPL.
dine - это многопоточный Java-клиент / искатель HTTP, который может быть запрограммирован на JavaScript и выпущен под LGPL.
Crawljax - это сканер Ajax, основанный на методе, который динамически создает «граф потока состояний», моделирующий различные навигационные пути и состояния в приложении Ajax. Crawljax написан на Java и выпущен под лицензией BSD.

AsTeR · Answer 2 · 26 января 2018

Только потому, что никто не скопировал вставленную рабочую команду ... Я пытаюсь ... десять лет спустя. : D

wget --mirror --convert-links --adjust-extension --page-requisites \
--no-parent http://example.org

Это сработало как очарование для меня.

pkaeding · Answer 3 · 23 сентября 2008

wget или curl могут рекурсивно следовать ссылкам и отражать весь сайт, так что это может быть хорошей ставкой. Вы не сможете использовать действительно интерактивные части сайта, такие как поисковые системы, или что-то, что изменяет данные, thoguh.

Можно ли вообще создавать фиктивные внутренние службы, которые могут запускаться с ноутбуков продавцов, с которыми приложение может взаимодействовать?

Brad Parks · Answer 4 · 26 ноября 2008

Если вам в конечном итоге придется запустить его с веб-сервера, вы можете взглянуть на:

ServerToGo

Позволяет запускать стек WAMPP с компакт-диска с поддержкой mysql / php / apache. Базы данных копируются во временный каталог текущего пользователя при запуске и могут запускаться полностью без установки пользователем чего-либо!

MrZebra · Answer 5 · 23 сентября 2008

Вы не сможете обрабатывать такие вещи, как запросы AJAX, без записи веб-сервера на компакт-диск, что, как я понимаю, вы уже сказали, невозможно.

wget загрузит сайт для вас (используйте параметр -r для "recursive"), но любой динамический контент, такой как отчеты и т. Д., Конечно, не будет работать должным образом, вы просто получите один снимок.

Как превратить динамический сайт в статический сайт, который можно демо-версию с компакт-диска?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как превратить динамический сайт в статический сайт, который можно демо-версию с компакт-диска?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы