batch/1.1/old/lecturePdf.php
2013-06-19 08:24:49 +00:00

110 lines
3.7 KiB
PHP

#!/usr/bin/php -c/var/www/batch/config/php_batch_sd.ini
<?php
include_once(INCLUDE_PATH.'bodacc/classMBodacc.php');
$iDb=new WDB();
define('BODACC_SCAN_DIR', '/home/data/bodacc/scan/');
$dir=BODACC_SCAN_DIR.'BODACC_A/2007/Boda_2007_001/';
$dh = opendir($dir);
while (false !== ($filename = readdir($dh))) {
if ($filename<>'.' && $filename<>'..' && ( substr($filename, -4)=='.pdf' ) )
$tabFichier[] = $filename;
}
sort($tabFichier);
/** On boucle sur chacune des pages du Bodacc
**/
$tabDateLu=$tabTypeNumLu=$tabTypeNumLu2=array();
foreach ($tabFichier as $fichier) {
//Boda_2007_001_0002.xml
if (preg_match('/^(Bod)(A|B|C)_(\d\d\d\d)_(\d\d\d)_(\d\d\d\d)\.pdf$/Ui', $fichier, $matches)) {
$type = $matches[1];
$lettre = $matches[2];
$annee = $matches[3];
$numBod = $matches[4];
$page = $matches[5];
} else
die("Fichier $fichier : Format du nom de fichier incorrect !");
if ($page==1) {
$tabAnnDB=array();
$tabTmp=$iDb->select('bodacc b, bodacc_detail d', 'b.id, b.Num_Annonce/*, b.annonce*/, d.siren, d.raisonSociale',
"b.Bodacc_Code='$lettre' AND b.Bodacc_Annee_Parution=$annee AND b.Bodacc_Num=$numBod AND b.id=d.id AND d.sirenValide=1", false, MYSQL_ASSOC);
foreach ($tabTmp as $annonce)
$tabAnnDB[$annonce['Num_Annonce']*1]=$annonce;
continue;
}
// print_r($tabAnnDB);
// die();
$pdf=$dir.$fichier;
$txt=str_replace('.pdf','.txt', $pdf);
exec("pdftotext -raw $pdf $txt");
$tabLignes=file($txt);
/*
// Lecture du numéro de page et du type de Bodacc
$strDeb=substr($str,0,40);
$tabTmp=explode (' - ', $strDeb);
if ($tabTmp[0]==$page*1) {
$pageLu=$page;
$typeNumLu=@$tabTmp[2];
} elseif(@$tabTmp[2]==$page*1) {
$pageLu=$page;
$typeNumLu=@$tabTmp[0];
}
$tabDateLu[]=@$tabTmp[1];
$tabTypeNumLu[]=$typeNumLu;
/*
[149] => Array
(
[id] => 544751
[Num_Annonce] => 00149
[annonce] => 0149 - RCS Aubenas A 493 203 301. RC 06-A 509. OLLIER (Aurélie, Jeanne, Brigitte). Nom d'usage : OLLIER. Nom commercial : "planet'hair". Activité : salon de coiffure mixte, vente de produits et accessoires de coiffure.. Adresse : 3, place du 14 Juillet, 07200 Aubenas. Fonds acquis par achat au prix stipulé de 14 000 euros . Date de début d'activité : 1er décembre 2006. Précédent propriétaire : CONSTANT (Marie). RCS 439 135 773. Publication légale : l'Hebdo de l'Ardèche du 8 décembre 2006 . Oppositions : Maître Pierre DIDIER, notaire à 07200 Aubenas.
[siren] => 493203301
[raisonSociale] => OLLIER ( Aurélie, Jeanne, Brigitte ) Nom d'usage : OLLIER
)
*/
echo "$fichier : $type $lettre $annee $numBod $page\n";
foreach ($tabLignes as $i=>$ligne) {
//echo "$page,$i: ".utf8_decode($ligne)."\n";
if (preg_match('/^(?:|\s)([\d]{1,5})(?:|\s)\-(.*)$/', $ligne, $matches)) {
$numAnn=$matches[1];
if (@$tabAnnDB[$numAnn]['siren']*1>0) {
$siren=''.$tabAnnDB[$numAnn]['siren'];
$s1=substr($siren,0,3);
$s2=substr($siren,3,3);
$s3=substr($siren,6,3);
if (strpos($ligne,$s1)==true || strpos($ligne,$s2)==true || strpos($ligne,$s3)==true ) {
$tabAnnDB[$numAnn]['page']=$page;
}
}
//print_r($tabAnnDB[$numAnn]);
}
}
//echo "$str\n";
/*
if(preg_match_all('/(\D)\s-\s(.*)RCS\./Uis', $str, $matches))
print_r($matches);
*/
/*sort($tabTypeNumLu);
$typeNumPre=false;
$nb=1;
foreach ($tabTypeNumLu as $typeNumLu) {
if ($typeNumPre<>$typeNumLu && !$typeNumPre) {
$tabTypeNumLu2[]=array('typeNumLu'=>$typeNumPre,
'nb' =>$nb);
$nb=0;
}
$typeNumPre=$typeNumLu;
$nb++;*/
}
print_r($tabAnnDB);
?>