Очистка созданного в Microsoft html-кода для хэша, включая «чистую» веб-страницу - PullRequest
1 голос
/ 20 июня 2010

У меня есть страница интрасети, в которой используется #include для включения других файлов, таких как таблицы номеров телефонов или номера телефона.Эти включенные файлы поддерживаются в Microsoft Excel.

Не все из них поддерживаются мной (парнем, отвечающим за саму интрасеть), поэтому на самом деле нет возможности отказаться принимать HTML-файлы, созданные Excel.

Проблема, с которой я столкнулся, состоит в том, что эти файлы забиты полным дерьмом, которое браузер почти наверняка не нужен для отображения в некоторых местах простой таблицы с некоторым цветовым форматированием (и иногда текст будет выделен жирным шрифтом иликурсив, в частности, ячеек)

Что, по вашему мнению, могло бы быть лучше?Есть ли какой-то код, который может очистить все дерьмо из файла, сохраненного Excel как HTML?Есть ли еще более известный в отрасли способ отображения встроенного содержимого, созданного третьими лицами?

Любые предложения приветствуются.

edit: Решения, использующие ASP, PHP, Javascript, также приветствуются.

1 Ответ

2 голосов
/ 20 июня 2010

Есть ли какая-то повторяющаяся структура в ваших файлах? Экспорт в CSV (значения, разделенные запятыми) и восстановление таблиц из этого источника может быть проще и быстрее, чем пытаться удалить десятки нежелательных элементов и атрибутов, которые, по мнению Excel, нужно добавить.

Если ваши выделенные жирным шрифтом и выделенные курсивом ячейки действительно специфичны (целый столбец данных частично выделен курсивом и нормальны), тогда CSV не поможет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...