不要な記述を除いたHTMLを抽出
scriptタグやコメントタグなどHTML以外の記述を除いたHTMLを取り出し
PHP
$lines = file('http://php.o0o0.jp', FILE_SKIP_EMPTY_LINES);
// 改行を[LF]に置換しソースを1行にする
$src = '';
foreach($lines as $lineVal) {
$src = $src . trim($lineVal) . '[LF]';
}
// JavaScriptを消去
$src = preg_replace('/<script(.*?)>(.*?)<\/script>/i', '', $src);
// コメントアウトを消去
$src = preg_replace('/<!--(.*?)-->/', '', $src);
// Googleカスタム検索を消去
$src = preg_replace('/<gcse:searchbox-only(.*?)><\/gcse:searchbox-only>/', '', $src);
// エンティティ化
$src = htmlspecialchars($src, ENT_HTML5);
// 改行を戻す
$src = preg_replace('/(\[LF\]){1,}/', '<br>', $src);
echo $src;