不要な記述を除いたHTMLを抽出

scriptタグやコメントタグなどHTML以外の記述を除いたHTMLを取り出し

PHP

$lines = file('http://php.o0o0.jp', FILE_SKIP_EMPTY_LINES); // 改行を[LF]に置換しソースを1行にする $src = ''; foreach($lines as $lineVal) { $src = $src . trim($lineVal) . '[LF]'; } // JavaScriptを消去 $src = preg_replace('/<script(.*?)>(.*?)<\/script>/i', '', $src); // コメントアウトを消去 $src = preg_replace('/<!--(.*?)-->/', '', $src); // Googleカスタム検索を消去 $src = preg_replace('/<gcse:searchbox-only(.*?)><\/gcse:searchbox-only>/', '', $src); // エンティティ化 $src = htmlspecialchars($src, ENT_HTML5); // 改行を戻す $src = preg_replace('/(\[LF\]){1,}/', '<br>', $src); echo $src;

最新の記事

プロフィール

流されるままにウェブ業界で仕事しています。主にLAPP環境でPHPを書いています。最近はjQueryで遊んでいます。
※動作確認について