92 lines
2.0 KiB
Plaintext
92 lines
2.0 KiB
Plaintext
La base de données doit communiqué en UTF-8
|
|
|
|
sql_query_pre = SET NAMES utf8
|
|
charset_type = utf-8
|
|
|
|
# 'utf-8' defaults for English and Russian
|
|
charset_table = 0..9, A..Z->a..z, _, a..z, \
|
|
U+410..U+42F->U+430..U+44F, U+430..U+44F
|
|
|
|
# For french
|
|
charset_table = 0..9, A..Z->a..z, a..z, \
|
|
U+00C0..U+00D6->U+00E0..U+00F6, U+00E0..U+00F6, \
|
|
U+00D8..U+00DE->U+00F8..U+00FE, U+00F8..U+00FE, \
|
|
U+0152->U+0153, U+0153 \
|
|
|
|
Morphology
|
|
==========
|
|
# builtin preprocessors are 'none', 'stem_en', 'stem_ru', 'stem_enru',
|
|
# 'soundex', and 'metaphone'; additional preprocessors available from
|
|
# libstemmer are 'libstemmer_XXX', where XXX is algorithm code
|
|
# (see libstemmer_c/libstemmer/modules.txt)
|
|
|
|
morphology = libstemmer_french
|
|
|
|
Taille minimum des mots ou l'on applique la morphology
|
|
min_stemming_len = 4
|
|
|
|
|
|
According to libstimmer.c/libstimmer/modules.txt, the french module can be refered to by either
|
|
french, fr, fre, fra... french UTF_8,ISO_8859_1 french,fr,fre,fra
|
|
|
|
|
|
Utilisation des stopwords
|
|
=========================
|
|
un, une, le, la, les, de, des, du, dans, l', d', @
|
|
|
|
Créer un fichier de stopwords
|
|
sudo /usr/local/sphinx/bin/indexer --config /etc/sphinxsearch/sphinx.conf --buildstops stopwords-ent.txt 100 ent
|
|
|
|
|
|
|
|
Utilisation des wordforms
|
|
=========================
|
|
Appliquer après les règles de charset_table
|
|
Stemming n'est pas appliquer à ces mots , ils deviennent des exceptions
|
|
|
|
Les mots définis sont utilisé pour normalisé les mots durant l'indexation et la recherche,
|
|
il est donc nécessaire de réindexé et redémarrer la recherche pour appliquer les changements
|
|
|
|
Divers
|
|
------
|
|
|
|
& > ET
|
|
|
|
Les chiffres
|
|
------------
|
|
|
|
un > 1
|
|
deux > 2
|
|
trois > 3
|
|
quatre > 4
|
|
cinq > 5
|
|
six > 6
|
|
sept > 7
|
|
huit > 8
|
|
neuf > 9
|
|
dix > 10
|
|
onze > 11
|
|
douze > 12
|
|
treize > 13
|
|
quatorze > 14
|
|
quinze > 15
|
|
seize > 16
|
|
vingt > 20
|
|
vingts > 20
|
|
trente > 30
|
|
quarante > 40
|
|
cinquante > 50
|
|
soixante > 60
|
|
quatrevingt > 80
|
|
cent > 100
|
|
cents > 100
|
|
mille > 1000
|
|
|
|
Les chiffres romain
|
|
-------------------
|
|
|
|
|
|
Les éléments de voies et abbréviations
|
|
--------------------------------------
|
|
Voir le wordforms
|