ZARU(ざる)のWeb系ブログですー。プログラミング&デザイン関係のTipsとか色々と。

PHPでHTMLをパースする

XMLじゃなくて、HTMLを解析したい…。しかもPHPで。

XMLだと、simplexml_load_file()っていう便利な関数がPHP5からあるけれど、HTMLはタグを取り除くぐらいしかない…というわけで、探してみたらHTMLをパースするライブラリがあった。

その名もまんまな、PHP Simple HTML DOM Parser。

使い方

include('simplehtmldom/simple_html_dom.php');
$html = <<<EOM
<ul>
    <li>aaa</li>
    <li>bbb</li>
    <li>ccc</li>
</ul>
EOM;
$data = str_get_html($html);
foreach($data->find('li') as $element){
    echo $element->plaintext;
}
#=>aaabbbccc

//URLやフィある名を指定して取得することも出来。
//その際は、 str_get_html() ではなく file_get_html() 。
$html = file_get_html('http://www.yahoo.co.jp/');

簡単な使い方は上記の通り。サイトにも書いてある通り、jQueryチックな使い方ができるので、以下のようなこともできる。

include('simplehtmldom/simple_html_dom.php');
$html = <<<EOM
<ul>
    <li>aaa</li>
    <li id="hoge">bbb</li>
    <li>ccc<strong>ddd</strong></li>
</ul>
EOM;
$data = str_get_html($html);
foreach($data->find('#hoge') as $element){
    echo $element->plaintext;
}
#=>bbb
foreach($data->find('li strong') as $element){
    echo $element->plaintext;
}
#=>ddd
echo $data->find('li',1)->id;
#=>hoge

データを抜き出すだけではなく、HTMLを書き換えることもできる。

    $html = <<<EOM
<ul>
    <li>aaa</li>
    <li>bbb</li>
    <li>ccc</li>
</ul>
EOM;

    $data = str_get_html($html);
    $data->find('ul',0)->class = 'hoge';
    $data->find('li',2)->innertext = 'piyo';
    echo $data;
#=><ul class="hoge">
#=> <li>aaa</li>
#=> <li>bbb</li>
#=> <li>piyo</li>
#=></ul>

非常に便利なので、色々と使い道がありそう。

Leave a Reply