La base de données doit communiqué en UTF-8
sql_query_pre = SET NAMES utf8
charset_type = utf-8
# 'utf-8' defaults for English and Russian
charset_table = 0..9, A..Z->a..z, _, a..z, \
U+410..U+42F->U+430..U+44F, U+430..U+44F
# For french
charset_table = 0..9, A..Z->a..z, a..z, \
U+00C0..U+00D6->U+00E0..U+00F6, U+00E0..U+00F6, \
U+00D8..U+00DE->U+00F8..U+00FE, U+00F8..U+00FE, \
U+0152->U+0153, U+0153 \
Morphology
==========
# builtin preprocessors are 'none', 'stem_en', 'stem_ru', 'stem_enru',
# 'soundex', and 'metaphone'; additional preprocessors available from
# libstemmer are 'libstemmer_XXX', where XXX is algorithm code
# (see libstemmer_c/libstemmer/modules.txt)
morphology = libstemmer_french
Taille minimum des mots ou l'on applique la morphology
min_stemming_len = 4
According to libstimmer.c/libstimmer/modules.txt, the french module can be refered to by either
french, fr, fre, fra... french UTF_8,ISO_8859_1 french,fr,fre,fra
Utilisation des stopwords
=========================
un, une, le, la, les, de, des, du, dans, l', d', @
Créer un fichier de stopwords
sudo /usr/local/sphinx/bin/indexer --config /etc/sphinxsearch/sphinx.conf --buildstops stopwords-ent.txt 100 ent
Utilisation des wordforms
=========================
Appliquer après les règles de charset_table
Stemming n'est pas appliquer à ces mots , ils deviennent des exceptions
Les mots définis sont utilisé pour normalisé les mots durant l'indexation et la recherche,
il est donc nécessaire de réindexé et redémarrer la recherche pour appliquer les changements
Divers
------
& > ET
Les chiffres
------------
un > 1
deux > 2
trois > 3
quatre > 4
cinq > 5
six > 6
sept > 7
huit > 8
neuf > 9
dix > 10
onze > 11
douze > 12
treize > 13
quatorze > 14
quinze > 15
seize > 16
vingt > 20
vingts > 20
trente > 30
quarante > 40
cinquante > 50
soixante > 60
quatrevingt > 80
cent > 100
cents > 100
mille > 1000
Les chiffres romain
-------------------
Les éléments de voies et abbréviations
--------------------------------------
Voir le wordforms