#!/usr/bin/php -c/var/www/batch/config/php_batch_sd.ini select('tabPays', 'codPays, codPays3, libPays', "1 /*codPays='DE'*/", false, MYSQL_ASSOC); $nbTrt=count($tabPays); foreach ($tabPays as $iTrt=>$pays) { $pays2=$pays['codPays']; $pays3=$pays['codPays3']; $paysLib=$pays['libPays']; echo date('Y/m/d H:i:s') . "$pays2\t$pays3\t$paysLib\t"; $url="http://www.info-clipper.com/index.php?country_code=$pays2&my_search=&my_adress=&my_postcode=&my_town=&q=SearchItems&my_duns="; $page=getUrl($url); if ($page['code']<>200) echo "KO\t"; else { $lib=$cod=''; echo "ok\t"; $body=$page['body']; if (preg_match("/
(?:.*)
(?:.*)(.*)<\/strong>(?:.*)<\/div>(?:.*)<\/div>/Uis", $body, $matches)) { //print_r($matches); $lib=html_entity_decode($matches[1]); $cod=$matches[2]; echo "1\t$lib\t$cod"; } else echo "0"; } echo EOL; //die(); sleep(2); } die(); $tabAnns=$iDb->select('bodacc_anncortmp', 'id, Bodacc_Annee_Parution, Bodacc_Num, Num_Annonce, Bodacc_Page, Bodacc_Date_Parution, typeAnnonce, corrNum_Annonce, corrBodacc_Date_Parution, corrBodacc_Date_Parution*1 AS corrBodacc_Date_ParutionYMD, corrPage, corrNumParution', '1', false, MYSQL_ASSOC); $nbTrt=count($tabAnns); foreach ($tabAnns as $iTrt=>$tabAnn) { $idAnnRet=$tabAnn['id']; /** Annonces rectificatives **/ if ($tabAnn['typeAnnonce']=='Rectificatif' || $tabAnn['typeAnnonce']=='Suppression') { if (preg_match('/(A|B|C)/i',$tabAnn['corrNumParution'],$matches)) { $corBodaccCode=@trim($matches[1]); $corBodaccNum=trim(strtr($tabAnn['corrNumParution'],array('A'=>'','B'=>'','C'=>'',' '=>''))); } $idAnnCor=$iDb->select('bodacc', 'id', "Bodacc_Code='". $corBodaccCode."' AND ". "Bodacc_Annee_Parution='". substr($tabAnn['corrBodacc_Date_Parution'],0,4)."' AND ". "Bodacc_Num='". $corBodaccNum."' AND ". "Num_Annonce='". $tabAnn['corrNum_Annonce']."'"); $idAnnCor=@$idAnnCor[0][0]; if ($idAnnCor>0) { //echo date ('Y/m/d - H:i:s')." - $iTrt/$nbTrt : Traitement de l'annonce de '".$tabAnn['typeAnnonce']."' (annonce $idAnnCor) en base (annonce $idAnnRet) !".EOL; if (!$iDb->update('bodacc_detail', array('dateSuppr'=>$tabAnn['Bodacc_Date_Parution']), "id=$idAnnCor")) { echo date ('Y/m/d - H:i:s')." - $iTrt/$nbTrt : IMPOSSIBLE de traiter A l'annonce de '".$tabAnn['typeAnnonce']."' num ".$tabAnn['corrNum_Annonce'].' '.$tabAnn['corrNumParution']." du ".$tabAnn['corrBodacc_Date_Parution']." (annonce $idAnnRet) !".EOL; //$saisie = trim(strtoupper(fgets(STDIN))); } } elseif ($tabAnn['corrBodacc_Date_ParutionYMD']>=20050101) { $tabTmp=$iDb->select('bodacc_detail', 'siren', 'id='.$idAnnRet, false, MYSQL_ASSOC); if (count($tabTmp)==1) { $siren=$tabTmp[0]['siren']; // On a le siren à corriger $idAnnCor=$iDb->select( 'bodacc_detail', 'id', "siren=$siren AND Bodacc_Date_Parution='".$tabAnn['corrBodacc_Date_Parution']."'"); if (count($idAnnCor)==1 && @$idAnnCor[0][0]>0) { $idAnnCor=@$idAnnCor[0][0]; if (!$iDb->update('bodacc_detail', array('dateSuppr'=>$tabAnn['Bodacc_Date_Parution']), "id=$idAnnCor")) echo date ('Y/m/d - H:i:s')." - $iTrt/$nbTrt : IMPOSSIBLE de traiter B l'annonce $idAnnCor de '".$tabAnn['typeAnnonce']."' num ".$tabAnn['corrNum_Annonce'].' '.$tabAnn['corrNumParution']." du ".$tabAnn['corrBodacc_Date_Parution']." (annonce $idAnnRet) !".EOL; /*else echo date ('Y/m/d - H:i:s')." - $iTrt/$nbTrt : Traitement de l'annonce $idAnnCor de '".$tabAnn['typeAnnonce']."' num ".$tabAnn['corrNum_Annonce'].' '.$tabAnn['corrNumParution']." du ".$tabAnn['corrBodacc_Date_Parution']." (annonce $idAnnRet) !".EOL; $saisie = trim(strtoupper(fgets(STDIN)));*/ } } else { echo date ('Y/m/d - H:i:s')." - $iTrt/$nbTrt : IMPOSSIBLE de trouver l'annonce de '".$tabAnn['typeAnnonce']."' num ".$tabAnn['corrNum_Annonce'].' '.$tabAnn['corrNumParution']." du ".$tabAnn['corrBodacc_Date_Parution']." (annonce $idAnnRet) !".EOL; $tabTmp=$iDb->select('bodacc', 'Bodacc_Code, Bodacc_Annee_Parution, Bodacc_Num, Num_Annonce, Bodacc_Date_Parution, annonce, dateInsert', "id=$idAnnRet", false, MYSQL_ASSOC); print_r($tabTmp[0]); } //$saisie = trim(strtoupper(fgets(STDIN))); } } } die(); $tabLignes=file('/root/sql/a6cmo/A6CMOenrichirzoneprioritaire.csv');///root/sql/diren20091106.txt'); $nb=count($tabLignes); echo 'Siret;Siège;Raison Sociale;Raison Sociale (suite);Enseigne;N° et Nom de Rue;Complément adresse;CP;Ville;Code départ INSEE;Code Commune INSEE;Catégorie juridique;Libellé CJ;Code Naf;Libellé Naf;Latitude;Longitude;Précision;lambert X;lambert Y;Tranche effectif établissement;Tranche effectif entreprise;effectif bilan;date de création établissement;date de création entreprise;nb établissements actifs;Capital;Capital Devise;Ch Aff;tel;fax'.EOL; $fp=fopen('/root/sql/a6cmo/A6CMO_out.csv'/*'/root/sql/diren20091106.csv'*/, 'w'); /* $tabId=$iInsee->getIdentiteEntreprise(313602021, 13); print_r($tabId); die();*/ foreach ($tabLignes as $i=>$ligne) { //if ($i<397672) continue; $j=$i+1; $tabCol=explode(',', $ligne); $siren=$tabCol[0]*1; $nic=$tabCol[1]*1; $ref=$tabCol[2]*1; if ($siren>0) { /*$tabTel=@$iTel->getTel($siren); print_r($tabTel); */ echo "$i/$nb:$siren\t$nic\t$ref\t".EOL; $tabId=@$iInsee->getIdentiteEntreprise($siren, $nic); //print_r($tabId);die(); //$tabLambert=geos2lambert($tabId['GeoLat'],$tabId['GeoLon']); //if ($tabId['GeoInfos']['ZUS']=='OUI') die(print_r($tabId['GeoInfos'],true)); $strInfos= @strtoupper("$siren\t$nic\t$ref\t". $tabId['GeoLat'] ."\t". $tabId['GeoLon'] ."\t". $tabId['GeoPrecis'] ."\t". $tabId['GeoInfos']['NZUS'] ."\t". $tabId['GeoInfos']['NZRU'] ."\t". $tabId['GeoInfos']['NZFU'] ."\t". $tabId['GeoInfos']['NCUCS'] ."\t". $tabId['GeoInfos']['NAFR'] ."\t". $tabId['GeoInfos']['NZRR'] ."\t". $tabId['Dept'] ."\t". $tabId['codeCommune'] ."\t". $tabId['Rivoli'] ."\t". $tabId['InfosIris']['codComIris'] ."\t". $tabId['InfosIris']['libIris'] ."\t". $tabId['InfosIris']['typIris'] .EOL); fwrite($fp, $strInfos); echo substr($strInfos,0,90).EOL; set_time_limit(0); //randsleep(7,21); //die() } } fclose($fp); die(); $tabSiren=array( "999171994", "999979248", ); shuffle($tabSiren); foreach ($tabSiren as $i=>$siren) { $strValide='invalide !'; if ($iInsee->valideSiren($siren)) { $strValide='VALIDE...'; print_r($iGreffe->getIdentite($siren)); randsleep(7,21); } echo "$i: $siren $strValide".EOL; //findSiteWeb($siren); //die(); } die(); /* $tabAdresses=file('./adresse.txt'); $fp=fopen('./adresses.csv', 'w'); foreach ($tabAdresses as $ligne) { $adr=$iInsee->structureVoie($ligne); $adrComp=@trim($adr['adrComp0'].' '.$adr['adrComp1'].' '.$adr['adrComp2']); @fwrite($fp, ''. $adr['num'] .';'. $adr['indRep'] .';'. $adr['typeVoie'] .';'. $adr['libVoie'] .';'. $adr['cp'] .';'. $adr['ville'] .';'. $adrComp . EOL); // fgets(STDIN); } fclose($fp);*/ $strNafCpf=utf8_decode(file_get_contents('/root/NAFrev2CPF2008.txt')); preg_match_all('/([0-9]{2,2}\.[0-9]{2,2}[A-Z]{1,1})(?:.*)(Cette sous-classe comprend \:.*)(Produits associés \:.*\n\n)/Uis',$strNafCpf,$matches); //(.*) $tabNaf=$matches[1]; $tabTxt=$matches[2]; $tabCpf=$matches[3]; //print_r($matches[4]); foreach ($tabNaf as $i=>$naf) { $strCpf=trim(preg_replace('/ +/',' ', strtr(strtoupper(strtr($tabCpf[$i], array('Produits associés :'=>'', "\r"=>' ',"\n"=>' '))),'ABCDEFGHIJKLMNOPQRSTUVWXYZ.ÉÈ-',' '))); $tabCpf2=explode(',', $strCpf); $tabCpf3=array(); foreach ($tabCpf2 as $cpf) $tabCpf3[]=strtr($cpf,array(' '=>'')); echo "$i:".$tabNaf[$i]."\t".implode(',',$tabCpf3).EOL; } die(); /*36.00Z Captage, traitement et distribution d'eau Cette sous-classe comprend aussi : - l'exploitation de canaux d'irrigation - l'exploitation d'appareils d'irrigation à des fins agricoles (cf. 01.61Z) - le traitement des eaux usées à des fins de prévention de la pollution (cf. 37.00Z) - le transport (sur de longues distances) d'eau par conduite (cf. 49.50Z) Cette sous-classe comprend : - le captage d'eau à partir de rivières, de lacs et de puits, etc. - la collecte d'eau de pluie - le traitement de l'eau aux fins de la distribution d'eau - le traitement de l'eau pour des usages industriels ou autres - le dessalement de l'eau de mer ou d'eaux souterraines, pour autant que la production d'eau constitue l'activité principale - la distribution de l'eau par conduites, camions ou autres moyens de transport 36.00.11, 36.00.12, 36.00.20, 36.00.30*/ $siret='51462335400016'; $siret='55214450300018'; $siret='51462323000018'; // Aucun siret sur CCI $siret='064410863'; $siret='56850374200013'; // Alsaceeco $siret='49496793800031'; $siret='49205135400024'; $siret='91732031900010'; $url='http://www.aef.cci.fr/accueil'; $page=getUrl($url); if ($page['code']<>200) die('A Erreur HTTP '.$page['code']." sur $url"); $cookies=$page['header']['Set-Cookie']; $referer=$url; $url='http://www.aef.cci.fr/accueil/accueil/validerFormulaire'; $post=array('label'=>'', 'identifiant'=>$siret, 'nom'=>'', 'dep'=>'', ); usleep(rand(300,1000)); $page=getUrl($url, $cookies, $post, $referer); $referer=$url; //$cookies=$page['header']['Set-Cookie']; if ($page['code']<>302) die('B Erreur HTTP '.$page['code']." sur $url"); $url=$page['header']['Location']; $page=getUrl($url, $cookies, '', $referer); $referer=trim($url); //$pageJS=getUrl('http://www.aef.cci.fr/scripts/Marqueur.js', $cookies, '', $referer); //die(print_r($pageJS)); if (!preg_match_all('/(.*)<\/a>(?:.*)<\/strong>/Uis', $page['body'], $matches)) die("C Erreur : Aucun siret $siret sur $url"); else { if (strlen($siren)<14 && count($matches[1])==1) $siret=$matches[1][0]; else { echo "$siret $url $cookies : Choisir le bon nic !".EOL; print_r($matches); die(); } } // http://www.aef.cci.fr/accueil/listeEntreprises/ficheEntreprise?siret= $url='http://www.aef.cci.fr/accueil/listeEntreprises/ficheEntreprise?siret='.$siret; usleep(rand(200,900)); $strCookies=str_replace("Path=/\r\n",'', $cookies); echo "$siret $url ($referer) $strCookies $cookies".EOL; $page=getUrl($url, $strCookies, '', $referer); $body=$page['body']; $tabRet=array(); $lienCCI=trim(htm2txt(@getTextInHtml($body, '

', 'href', '

'))); $tmp=explode('"', $lienCCI); $tabRet['nomCCI']=str_replace('>','', end($tmp)); $tabRet['urlCCI']=$tmp[1]; $tabRet['siret']=trim(htm2txt(@getTextInHtml($body, '
SIRET
', '
', '
'))); $tabRet['enseigne']=utf8_decode(trim(htm2txt(@getTextInHtml($body, '
Enseigne
', '
', '
')))); $tabRet['statut']=utf8_decode(trim(htm2txt(@getTextInHtml($body, '
Statut
', '
', '
')))); $tabRet['categorie']=utf8_decode(trim(htm2txt(@getTextInHtml($body, '
Catégorie
', '
', '
')))); $tabRet['voie']=utf8_decode(trim(htm2txt(@getTextInHtml($body, '
Voie
', '
', '
')))); $tabRet['bp']=trim(htm2txt(@getTextInHtml($body, '
Boite postale
', '
', '
'))); $tabRet['cp']=trim(htm2txt(@getTextInHtml($body, '
Code postal
', '
', '
'))); $tabRet['ville']=utf8_decode(trim(htm2txt(@getTextInHtml($body, '
Ville
', '
', '
')))); $tabRet['pays']=trim(htm2txt(@getTextInHtml($body, '
Pays
', '
', '
'))); $tabRet['tel']=trim(htm2txt(@getTextInHtml($body, '
Téléphone
', '
', '
'))); $tabRet['fax']=trim(htm2txt(@getTextInHtml($body, '
Télécopie
', '
', '
'))); $tabRet['web']=trim(htm2txt(@getTextInHtml($body, 'Site internet', 'href', ''))); $tabRet['dateDebut']=trim(htm2txt(@getTextInHtml($body, 'Date de début d\'activité', '
', '
'))); $tabRet['naf']=trim(htm2txt(@getTextInHtml($body, '
Code NAF 2008', '
', '
'))); $tabRet['activite']=utf8_decode(trim(htm2txt(@getTextInHtml($body, 'Activité en clair', '
', '
')))); $tabRet['siren']=trim(htm2txt(@getTextInHtml($body, '
SIREN
', '
', '
'))); $tabRet['rs']=utf8_decode(trim(htm2txt(@getTextInHtml($body, '
Raison sociale
', '
', '
')))); $tabRet['denom']=utf8_decode(trim(htm2txt(@getTextInHtml($body, '
Dénomination
', '
', '
')))); $tabRet['fj']=utf8_decode(trim(htm2txt(@getTextInHtml($body, 'Forme juridique', '
', '
')))); //$tabRet['lien']=$lienCCI; $tabRet['diropp']=utf8_decode(trim(htm2txt(@getTextInHtml($body, 'quipe dirigeante', '
', '
')))); $tabRet['dirleg']=utf8_decode(trim(htm2txt(@getTextInHtml($body, '

Dirigeants

', '
', '
')))); $tabRet['capitalDev']=trim(htm2txt(@getTextInHtml($body, 'Capital social (', ' (', ''))); $tabRet['capitalMt']=trim(htm2txt(@getTextInHtml($body, 'Capital social (', '
', '
'))); print_r($tabRet); //print_r($page); die(); /*11:26:17.340[239ms][total 816ms] État: 200[OK] GET http://www.aef.cci.fr/accueil/listeEntreprises/ficheEntreprise?siret=51462335400016 Indicateurs chargement[LOAD_DOCUMENT_URI LOAD_INITIAL_DOCUMENT_URI ] Taille contenu[14043] Type Mime[text/html] En-têtes requête: Host[www.aef.cci.fr] User-Agent[Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.9.1.3) Gecko/20090824 Firefox/3.5.3 (.NET CLR 3.5.30729) FirePHP/0.3] Accept-Language[fr,fr-fr;q=0.8,en-us;q=0.5,en;q=0.3] Accept-Encoding[gzip,deflate] Accept-Charset[ISO-8859-1,utf-8;q=0.7,*;q=0.7] Keep-Alive[300] Connection[keep-alive] Referer[http://www.aef.cci.fr/accueil/listeEntreprises] Cookie[_ZopeId="37588307A4Cwlzf3Lu4"; SERVERID=zope5; __utma=67492737.1045109818.1252916446.1252916446.1252916446.1; __utmb=67492737.50.10.1252916446; __utmc=67492737; __utmz=67492737.1252916446.1.1.utmgclid=CKnsnYPW8JwCFZkA4wodMjdujQ|utmccn=(not%20set)|utmcmd=(not%20set)|utmctr=registre%20des%20metiers] En-têtes réponse: Date[Mon, 14 Sep 2009 09:28:45 GMT] Server[Zope/(Zope 2.9.0-, python 2.4.3, linux2) ZServer/1.1] Content-Length[14043] Content-Type[text/html; charset=utf-8] Cache-Control[no-cache] Connection[close] **/ function chechSirenSiteAfnic($siteWeb) { $referer='http://www.afnic.fr/'; $url='http://www.afnic.fr/outils/whois/'.$siteWeb; //die(print_r(parse_url('http://www.'.$siteWeb.'/'))); /*print_r(pathinfo('http://www.'.$siteWeb.'/index.html')); print_r(pathinfo($siteWeb)); die();*/ $page=getUrl($url, '', '', $referer); if ($page['code']==200) { if(preg_match('/
  • Identifié grâce au numéro de SIREN (.*)<\/a><\/li>/Uis', $page['body'], $matches)) echo html_entity_decode($matches[1]); die(); } } chechSirenSiteAfnic('dipinfo.fr'); function findSiteWeb($siren) { $referer='http://www.google.fr/'; $siren2=implode(' ', str_split($siren, 3)); $rs="$siren OR \"$siren2\" -site:gouv.fr -site:info-financiere.fr -site:bodacc.fr -site:manageo.fr -site:bilansgratuits.fr -site:lesechos.fr -site:google.fr"; $url='http://www.google.fr/search?hl=fr&as_qdr=all&q='.urlencode($rs).'&btnG=Rechercher';//&meta=cr%3DcountryFR'; //http://www.google.fr/search?hl=fr&q=448364232+OR+%22448+364+232%22+-site%3Agouv.fr++-site%3Ainfo-financiere.fr+-site%3Abodacc.fr&btnG=Rechercher&meta= $page=getUrl($url, '', '', $referer, false, 'www.google.fr','', 5); //$fp=fopen('./findSiteWeb.log', 'a+'); if ($page['code']==200) { $levMin=100; $pctMin=0; $urlLev=$urlPct=''; $body=$page['body']; preg_match_all('/$url) { /* $lev=@levenshtein ($urlapprox,$url); if ($lev>0 && $lev<$levMin) { $levMin=$lev; $urlLev=$url; } $sim=similar_text($urlapprox,$url,$pct); if ($pct>$pctMin && strpos($url, 'zonebourse')===false) { $pctMin=$pct; $urlPct=$url; } fwrite($fp, date('Y-m-d H:i:s') .' - '. $page['code'] . " - $rs - $i - $lev (Min=$levMin) - $pct (Min=$pctMin) - $urlLev - $urlPct - $url\n");*/ if ($i>=10 && preg_match('/^http\:\/\//is', $url) && !preg_match('/google/is', $url)) echo "$i: $siren = $url".EOL; //2008-05-20 20:01:08 - 200- ARKEMA FRANCE - 53 - 20 - 10 - http://www.arkema.fr/ - http://www.zonebourse.com/ARKEMA-17031/ - /intl/fr/about.html } //fclose($fp); /* if ($levMin<15 && $pctMin>44 && $urlLev==$urlPct) { fwrite($fp, date('Y-m-d H:i:s') .' - '. $page['code'] . " - $rs - $i - $lev (Min=$levMin) - $pct (Min=$pctMin) - $urlLev - $urlPct - $url !!! RETURNED !!!\n"); return $urlLev; } return false;*/ } //fclose($fp); return false; } //die(); /* print_r($iGreffe->getListeEtab(552144503)); //print_r($iGreffe->getIdentite(552144503)); die(); */ //print_r($iGreffe->getIdentite('323972596')); //print_r($iGreffe->getIdentite('552144503')); ?>