PDF * Distribué sous la licence LGPL. * * @author Laurent MINGUET * @version 3.31 */ class parsingHTML { var $html = ''; // code HTML à parser var $num = 0; // numéro de table var $level = 0; // niveaux de table var $encoding = ''; // encodage var $code = array(); // code HTML parsé /** * Constructeur * * @return null */ function parsingHTML($encoding = 'ISO-8859-15') { $this->num = 0; $this->level = array($this->num); $this->html = ''; $this->code = array(); $this->setEncoding($encoding); } function setEncoding($encoding) { $this->encoding = $encoding; } /** * Définir le code HTML à parser * * @param string code html * @return null */ function setHTML($html) { $html = preg_replace('//isU', '', $html); $this->html = $html; } /** * parser le code HTML * * @return null */ function parse() { $parents = array(); // chercher les balises HTML du code $tmp = array(); $this->searchCode($tmp); // identifier les balises une à une $pre_in = false; $pre_br = array( 'name' => 'br', 'close' => false, 'param' => array( 'style' => array(), 'num' => 0 ) ); $balises_no_closed = array( 'br', 'hr', 'img', 'col', 'input', 'link', 'option', 'circle', 'ellipse', 'path', 'rect', 'line', 'polygon', 'polyline' ); $todos = array(); foreach($tmp as $part) { // si c'est un code if ($part[0]=='code') { $res = $this->analiseCode($part[1]); // si le code est bien un code analisable if ($res) { $res['html_pos'] = $part[2]; if (!in_array($res['name'], $balises_no_closed)) { if ($res['close']) { if (count($parents)<1) HTML2PDF::makeError(3, __FILE__, __LINE__, $res['name'], $this->getHtmlErrorCode($res['html_pos'])); else if ($parents[count($parents)-1]!=$res['name']) HTML2PDF::makeError(4, __FILE__, __LINE__, $parents, $this->getHtmlErrorCode($res['html_pos'])); else unset($parents[count($parents)-1]); } else { if ($res['autoclose']) { $todos[] = $res; $res['params'] = array(); $res['close'] = true; } else $parents[count($parents)] = $res['name']; } if (($res['name']=='pre' || $res['name']=='code') && !$res['autoclose']) $pre_in = !$res['close']; } $todos[] = $res; } // sinon (code non analisable) => on le transforme en texte else { $part[0]='txt'; } } // sinon si c'est un texte if ($part[0]=='txt') { // enregistrer l'action correspondante if (!$pre_in) { // remplacer tous les espaces, tabulations, saufs de ligne multiples par de simples espaces $todos[] = array( 'name' => 'write', 'close' => false, 'param' => array('txt' => $this->prepareTxt($part[1])), ); } else { $part[1] = str_replace("\r", '', $part[1]); $part[1] = explode("\n", $part[1]); foreach($part[1] as $k => $txt) { $txt = str_replace("\t", ' ', $txt); $txt = str_replace(' ', ' ', $txt); if ($k>0) $todos[] = $pre_br; $todos[] = array( 'name' => 'write', 'close' => false, 'param' => array('txt' => $this->prepareTxt($txt, false)), ); } } } } // pour chaque action identifiée, il faut nettoyer le début et la fin des textes // en fonction des balises qui l'entourent. $balises_clean = array('page', 'page_header', 'page_footer', 'form', 'table', 'thead', 'tfoot', 'tr', 'td', 'th', 'br', 'div', 'hr', 'p', 'ul', 'ol', 'li', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'bookmark', 'fieldset', 'legend', 'draw', 'circle', 'ellipse', 'path', 'rect', 'line', 'g', 'polygon', 'polyline'); $nb = count($todos); for($k=0; $k<$nb; $k++) { //si c'est un texte if ($todos[$k]['name']=='write') { // et qu'une balise spécifique le précède => on nettoye les espaces du début du texte if ($k>0 && in_array($todos[$k-1]['name'], $balises_clean)) $todos[$k]['param']['txt'] = ltrim($todos[$k]['param']['txt']); // et qu'une balise spécifique le suit => on nettoye les espaces de la fin du texte if ($k<$nb-1 && in_array($todos[$k+1]['name'], $balises_clean)) $todos[$k]['param']['txt'] = rtrim($todos[$k]['param']['txt']); if (!strlen($todos[$k]['param']['txt'])) unset($todos[$k]); } } if (count($parents)) HTML2PDF::makeError(5, __FILE__, __LINE__, $parents); // liste des actions sauvée $this->code = array_values($todos); } /** * preparer le texte une seule fois pour gagner du temps. vient de o_WRITE * * @param string texte * @return string texte */ function prepareTxt($txt, $spaces = true) { if ($spaces) $txt = preg_replace('/\s+/is', ' ', $txt); $txt = str_replace('€', '€', $txt); $txt = html_entity_decode($txt, ENT_QUOTES, $this->encoding); return $txt; } /** * parser le code HTML * * @param &array tableau de retour des données * @return null */ function searchCode(&$tmp) { // séparer les balises du texte $tmp = array(); $reg = '/(<[^>]+>)|([^<]+)+/isU'; // pour chaque élément trouvé : $str = ''; $offset = 0; while(preg_match($reg, $this->html, $parse, PREG_OFFSET_CAPTURE, $offset)) { // si une balise a été détectée if ($parse[1][0]) { // sauvegarde du texte précédent si il existe if ($str!=='') $tmp[] = array('txt',$str); // sauvegarde de la balise $tmp[] = array('code',trim($parse[1][0]), $offset); // initialisation du texte suivant $str = ''; } else { // ajout du texte à la fin de celui qui est déjà détecté $str.= $parse[2][0]; } // Update offset to the end of the match $offset = $parse[0][1] + strlen($parse[0][0]); unset($parse); } // si un texte est présent à la fin, on l'enregistre if ($str!='') $tmp[] = array('txt',$str); unset($str); } /** * analyse une balise HTML * * @param string code HTML à identifier * @return array action correspondante */ function analiseCode($code) { // nom de la balise et ouverture ou fermeture $balise = '<([\/]{0,1})([_a-z0-9]+)([\/>\s]+)'; if (!preg_match('/'.$balise.'/isU', $code, $match)) return null; $close = ($match[1]=='/' ? true : false); $autoclose = preg_match('/\/>$/isU', $code); $name = strtolower($match[2]); // paramètres obligatoires en fonction du nom de la balise $param = array(); $param['style'] = ''; if ($name=='img') { $param['alt'] = ''; $param['src'] = ''; } if ($name=='a') { $param['href'] = ''; } // lecture des paramétres du type nom=valeur $prop = '([a-zA-Z0-9_]+)=([^"\'\s>]+)'; preg_match_all('/'.$prop.'/is', $code, $match); for($k=0; $k $val) { $key = strtolower($key); switch($key) { case 'width': unset($param[$key]); $param['style'] .= 'width: '.$val.'px; '; break; case 'align': if ($name==='img') { unset($param[$key]); $param['style'] .= 'float: '.$val.'; '; } elseif ($name!=='table') { unset($param[$key]); $param['style'] .= 'text-align: '.$val.'; '; } break; case 'valign': unset($param[$key]); $param['style'] .= 'vertical-align: '.$val.'; '; break; case 'height': unset($param[$key]); $param['style'] .= 'height: '.$val.'px; '; break; case 'bgcolor': unset($param[$key]); $param['style'] .= 'background: '.$val.'; '; break; case 'bordercolor': unset($param[$key]); $color = $val; break; case 'border': unset($param[$key]); if (preg_match('/^[0-9]+$/isU', $val)) $val = $val.'px'; $border = $val; break; case 'cellpadding': case 'cellspacing': if (preg_match('/^([0-9]+)$/isU', $val)) $param[$key] = $val.'px'; break; case 'colspan': case 'rowspan': $val = preg_replace('/[^0-9]/isU', '', $val); if (!$val) $val = 1; $param[$key] = $val; break; } } if ($border!==null) { if ($border) $border = 'border: solid '.$border.' '.$color; else $border = 'border: none'; $param['style'] .= $border.'; '; $param['border'] = $border; } // lecture des styles - décomposition $styles = explode(';', $param['style']); $param['style'] = array(); foreach($styles as $style) { $tmp = explode(':', $style); if (count($tmp)>1) { $cod = $tmp[0]; unset($tmp[0]); $tmp = implode(':', $tmp); $param['style'][trim(strtolower($cod))] = preg_replace('/[\s]+/isU', ' ', trim($tmp)); } } // détermination du niveau de table pour les ouverture, avec ajout d'un level if (in_array($name, array('ul', 'ol', 'table')) && !$close) { $this->num++; $this->level[count($this->level)] = $this->num; } // attribution du niveau de table où se trouve l'élément if (!isset($param['num'])) $param['num'] = $this->level[count($this->level)-1]; // pour les fins de table : suppression d'un level if (in_array($name, array('ul', 'ol', 'table')) && $close) { unset($this->level[count($this->level)-1]); } if (isset($param['value'])) $param['value'] = $this->prepareTxt($param['value']); if (isset($param['alt'])) $param['alt'] = $this->prepareTxt($param['alt']); if (isset($param['title'])) $param['title'] = $this->prepareTxt($param['title']); if (isset($param['class'])) $param['class'] = $this->prepareTxt($param['class']); // retour de l'action identifiée return array('name' => $name, 'close' => $close ? 1 : 0, 'autoclose' => $autoclose, 'param' => $param); } // récupérer un niveau complet d'HTML entre une ouverture de balise et la fermeture correspondante function getLevel($k) { // si le code n'existe pas : fin if (!isset($this->code[$k])) return array(); // quelle balise faudra-t-il détecter $detect = $this->code[$k]['name']; $level = 0; // niveau de profondeur $end = false; // etat de fin de recherche $code = array(); // code extrait // tant que c'est pas fini, on boucle while (!$end) { // action courante $row = $this->code[$k]; // si write => on ajoute le texte if ($row['name']=='write') { $code[] = $row; } // sinon, c'est une balise html else { $not = false; // indicateur de non prise en compte de la balise courante // si c'est la balise que l'on cherche if ($row['name']==$detect) { if ($level==0) { $not = true; } // si on est à la premiere balise : on l'ignore $level+= ($row['close'] ? -1 : 1); // modification du niveau en cours en fonction de l'ouvertre / fermeture if ($level==0) { $not = true; $end = true; } // si on est au niveau 0 : on a fini } // si on doit prendre en compte la balise courante if (!$not) { if (isset($row['style']['text-align'])) unset($row['style']['text-align']); $code[] = $row; } } // on continue tant qu'il y a du code à analyser... if (isset($this->code[$k+1])) $k++; else $end = true; } // retourne le code extrait return $code; } function getHtmlErrorCode($pos) { return substr($this->html, $pos-30, 70); } }