La base de données doit communiqué en UTF-8 sql_query_pre = SET NAMES utf8 charset_type = utf-8 # 'utf-8' defaults for English and Russian charset_table = 0..9, A..Z->a..z, _, a..z, \ U+410..U+42F->U+430..U+44F, U+430..U+44F # For french charset_table = 0..9, A..Z->a..z, a..z, \ U+00C0..U+00D6->U+00E0..U+00F6, U+00E0..U+00F6, \ U+00D8..U+00DE->U+00F8..U+00FE, U+00F8..U+00FE, \ U+0152->U+0153, U+0153 \ Morphology ========== # builtin preprocessors are 'none', 'stem_en', 'stem_ru', 'stem_enru', # 'soundex', and 'metaphone'; additional preprocessors available from # libstemmer are 'libstemmer_XXX', where XXX is algorithm code # (see libstemmer_c/libstemmer/modules.txt) morphology = libstemmer_french Taille minimum des mots ou l'on applique la morphology min_stemming_len = 4 According to libstimmer.c/libstimmer/modules.txt, the french module can be refered to by either french, fr, fre, fra... french UTF_8,ISO_8859_1 french,fr,fre,fra Utilisation des stopwords ========================= un, une, le, la, les, de, des, du, dans, l', d', @ Créer un fichier de stopwords sudo /usr/local/sphinx/bin/indexer --config /etc/sphinxsearch/sphinx.conf --buildstops stopwords-ent.txt 100 ent Utilisation des wordforms ========================= Appliquer après les règles de charset_table Stemming n'est pas appliquer à ces mots , ils deviennent des exceptions Les mots définis sont utilisé pour normalisé les mots durant l'indexation et la recherche, il est donc nécessaire de réindexé et redémarrer la recherche pour appliquer les changements Divers ------ & > ET Les chiffres ------------ un > 1 deux > 2 trois > 3 quatre > 4 cinq > 5 six > 6 sept > 7 huit > 8 neuf > 9 dix > 10 onze > 11 douze > 12 treize > 13 quatorze > 14 quinze > 15 seize > 16 vingt > 20 vingts > 20 trente > 30 quarante > 40 cinquante > 50 soixante > 60 quatrevingt > 80 cent > 100 cents > 100 mille > 1000 Les chiffres romain ------------------- Les éléments de voies et abbréviations -------------------------------------- Voir le wordforms