Импорт данных из файла HTML (со встроенным JavaScript) в базу данных MySQL - PullRequest
0 голосов
/ 29 ноября 2011

Пожалуйста, кто знает, как импортировать этот контент в базу данных mysql?

Я хочу получить данные из этого HTML в базу данных.У меня есть 5000 таких файлов, и я хочу импортировать их.Проблема в том, что в файле есть встроенный JavaScript.Пожалуйста, посмотрите на HTML-контент внизу этого сообщения.

Я посмотрел на simple_html_dom, но не могу понять, как это сделать правильно.1008 * Заранее спасибо.

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>

<head>
  <title></title>
  <meta name="GENERATOR" content="Quanta Plus">
  <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body>


<div id="company_record">
    <div class="comp_record_left">
            <H1>Company name</H1>
            <b>Contact:</b> Contactpersoon naam<br/>
            <b>Address:</b> Adresstraatname 43<br/>
            <b>Zipcode:</b> 4444 ZC<br/>
            <b>City:</b> Placename<br/>
            <b>Email:</b> 
<script language='JavaScript' type='text/javascript'>
 <!--
 var prefix = 'm&#97;&#105;lt&#111;:';
var suffix = '';
var attribs = '';
var path = 'hr' + 'ef' + '=';
var encdd = 'm&#101;m&#97;&#105;l&#97;dr' + '&#64;';
encdd = encdd + 'h&#111;tm&#97;&#105;l' + '&#46;' + 'c&#111;m';
 encdd = encdd + 'h&#111;tm&#97;&#105;l' + '&#46;' + 'c&#111;m';
 document.write( '<a ' + path + '\'' + prefix + encdd + suffix + '\'' + attribs + '>' );
 document.write( enc );
 document.write( '<\/a>' );
 //-->
 </script><script language='JavaScript' type='text/javascript'>
 <!--
 document.write( '<span style=\'display: none;\'>' );
 //-->
 </script>Dit e-mail adres is beschermd tegen spambots. U heeft Javascript nodig om het te kunnen zien.
 <script language='JavaScript' type='text/javascript'>
 <!--
 document.write( '</' );
 document.write( 'span>' );
 //-->
 </script>
            <br/><br/>
            <img src="/images/4000001_img.jpg" alt="Company name image alt"/><br/><br/><br/>
            <b>Comments:</b> 
                Our comppany is wonderfull this is our services<br />
                service 1 <br />
                service 1 <br />
                service 1 <br />
                service 1 <br />
    </div>
    <div class="comp_record_right">
            <div class="rating_block">
                <p class="item">
                    Company: <span class="fn">Company name </span>
                </p>
                <span class="rating">
                    Rating: <span class="average">5</span> (scale to  
                <span class="best">10</span>)
                </span>
                <span> After <span class="count">10</span> days.</span>
            </div>
    </div>
</div>
</body>
</html>

1 Ответ

0 голосов
/ 29 ноября 2011

Если вы знаете способ составления списка всех ваших 5000 файлов и имеете постоянный контент для них, вы можете использовать simple_html_dom просто как:

// assuming you include that lib
// $files contains file pathes
for($files as $file) {
    $html = file_get_html($file);
    $text = $html->find('div.comp_record_left')->innerText();
    // here you need to parse...
    // or you may want to find more specific elements in.
}

Этот код далекоот полного решения, но оно может указать вам правильное направление.

...