Как превратить динамический сайт в статический сайт, который можно демо-версию с компакт-диска? - PullRequest
8 голосов
/ 23 сентября 2008

Мне нужно найти способ отсканировать одно из веб-приложений нашей компании и создать из него статический сайт, который можно записать на компакт-диск и использовать путешествующие продавцы для демонстрации сайта. Внутреннее хранилище данных распределено по многим, многим системам, поэтому просто запуск сайта на виртуальной машине на ноутбуке продавца не будет работать. И у них не будет доступа к интернету, пока у некоторых клиентов (нет интернета, сотовый телефон .... примитивно, я знаю).

Есть ли у кого-нибудь хорошие рекомендации для сканеров, которые могут обрабатывать такие вещи, как очистка ссылок, flash, небольшой ajax, css и т. Д.? Я знаю, что шансы невелики, но я решил выбросить вопрос здесь, прежде чем приступить к написанию своего собственного инструмента.

Ответы [ 5 ]

13 голосов
/ 23 сентября 2008

Используя WebCrawler , например, один из них:

  • DataparkSearch - это сканер и поисковая система, выпущенная в соответствии с общедоступной лицензией GNU.
  • GNU Wget - это искатель из командной строки, написанный на C и выпущенный под лицензией GPL. Обычно используется для зеркалирования веб-сайтов и FTP-сайтов.
  • HTTrack использует сканер для создания зеркала веб-сайта для просмотра в автономном режиме. Он написан на C и выпущен под лицензией GPL.
  • ICDL Crawler - это межплатформенный веб-сканер, написанный на C ++ и предназначенный для сканирования веб-сайтов на основе шаблонов синтаксического анализа веб-сайтов с использованием только свободных ресурсов ЦП компьютера.
  • JSpider - это настраиваемый и настраиваемый механизм веб-пауков, выпущенный под лицензией GPL.
  • Ларбин Себастьен Эйлерет
  • Webtools4larbin от Андреаса Бедера
  • Methabot - это оптимизированный по скорости поисковый робот и утилита командной строки, написанный на C и выпущенный по лицензии BSD с 2 пунктами. Он имеет широкую систему конфигурации, модульную систему и поддерживает целевое сканирование через локальную файловую систему, HTTP или FTP.
  • Jaeksoft WebSearch - это сканер веб-приложений и индексатор, созданный на основе Apache Lucene. Он выпущен под лицензией GPL v3.
  • Nutch - это сканер, написанный на Java и выпущенный под лицензией Apache. Может использоваться вместе с пакетом индексации текста Lucene.
  • Pavuk - инструмент веб-зеркала командной строки с дополнительным сканером графического интерфейса пользователя X11, выпущенный под лицензией GPL. Он имеет множество дополнительных функций по сравнению с wget и httrack, например. правила фильтрации и создания файлов на основе регулярных выражений.
  • WebVac - это сканер, используемый в Stanford WebBase Project.
  • WebSPHINX (Miller and Bharat, 1998) состоит из библиотеки классов Java, которая реализует многопоточный поиск веб-страниц и синтаксический анализ HTML, и графического пользовательского интерфейса для установки начальных URL-адресов, для извлечения загруженных данных и реализации базовый текстовый поисковик.
  • WIRE - Среда поиска информации в Интернете [15] - это веб-сканер, написанный на C ++ и выпущенный под лицензией GPL, включающий несколько политик для планирования загрузки страниц и модуль для генерации отчетов и статистики по загруженным страницам, чтобы он использовался для веб-характеристики.
  • LWP :: RobotUA (Langheinrich, 2004) - это класс Perl для реализации хорошо работающих параллельных веб-роботов, распространяемых по лицензии Perl 5.
  • Web Crawler Класс веб-искателя с открытым исходным кодом для .NET (написанный на C #).
  • Шерлок Холмс Шерлок Холмс собирает и индексирует текстовые данные (текстовые файлы, веб-страницы, ...) как локально, так и по сети. Holmes спонсируется и коммерчески используется чешским веб-порталом Centrum. Он также используется Onet.pl.
  • YaCy, бесплатная распределенная поисковая система, построенная на принципах одноранговых сетей (лицензируется по лицензии GPL).
  • Ruya Ruya - это высокопроизводительный веб-сканер с широкими возможностями и открытым исходным кодом. Он используется для качественного сканирования английских и японских веб-сайтов. Он выпущен под лицензией GPL и полностью написан на языке Python. Реализация SingleDomainDelayCrawler подчиняется robots.txt с задержкой сканирования.
  • Universal Information Crawler Быстро развивающийся веб-сканер. Сканирование Сохраняет и анализирует данные.
  • Ядро агента Инфраструктура Java для управления расписанием, потоками и хранением при сканировании.
  • Spider News, Информация о создании паука в Perl.
  • Arachnode.NET, разнородный веб-сканер с открытым исходным кодом для загрузки, индексации и хранения интернет-контента, включая адреса электронной почты, файлы, гиперссылки, изображения и веб-страницы. Arachnode.net написан на C # с использованием SQL Server 2005 и выпущен под лицензией GPL.
  • dine - это многопоточный Java-клиент / искатель HTTP, который может быть запрограммирован на JavaScript и выпущен под LGPL.
  • Crawljax - это сканер Ajax, основанный на методе, который динамически создает «граф потока состояний», моделирующий различные навигационные пути и состояния в приложении Ajax. Crawljax написан на Java и выпущен под лицензией BSD.
3 голосов
/ 26 января 2018

Только потому, что никто не скопировал вставленную рабочую команду ... Я пытаюсь ... десять лет спустя. : D

wget --mirror --convert-links --adjust-extension --page-requisites \
--no-parent http://example.org

Это сработало как очарование для меня.

3 голосов
/ 23 сентября 2008

wget или curl могут рекурсивно следовать ссылкам и отражать весь сайт, так что это может быть хорошей ставкой. Вы не сможете использовать действительно интерактивные части сайта, такие как поисковые системы, или что-то, что изменяет данные, thoguh.

Можно ли вообще создавать фиктивные внутренние службы, которые могут запускаться с ноутбуков продавцов, с которыми приложение может взаимодействовать?

1 голос
/ 26 ноября 2008

Если вам в конечном итоге придется запустить его с веб-сервера, вы можете взглянуть на:

ServerToGo

Позволяет запускать стек WAMPP с компакт-диска с поддержкой mysql / php / apache. Базы данных копируются во временный каталог текущего пользователя при запуске и могут запускаться полностью без установки пользователем чего-либо!

1 голос
/ 23 сентября 2008

Вы не сможете обрабатывать такие вещи, как запросы AJAX, без записи веб-сервера на компакт-диск, что, как я понимаю, вы уже сказали, невозможно.

wget загрузит сайт для вас (используйте параметр -r для "recursive"), но любой динамический контент, такой как отчеты и т. Д., Конечно, не будет работать должным образом, вы просто получите один снимок.

...