sdsphinx/scripts/build
Michael RICOIS acad0ec96e Change path
2015-02-13 16:12:02 +00:00
..
config-dev Keep pid file in readable directory 2014-11-17 08:30:37 +00:00
config-prod Change path 2015-02-13 16:12:02 +00:00
ubuntu-12.04/etc Update config files 2014-02-10 09:07:13 +00:00
ubuntu-14.04/etc Change path 2015-02-13 16:12:02 +00:00
configure.php Ajout date plus complète 2014-04-17 10:35:01 +00:00
README New configuration 2014-08-13 15:28:28 +00:00

La base de données doit communiqué en UTF-8

sql_query_pre     = SET NAMES utf8
charset_type = utf-8

# 'utf-8' defaults for English and Russian
charset_table = 0..9, A..Z->a..z, _, a..z, \
	U+410..U+42F->U+430..U+44F, U+430..U+44F

# For french
charset_table = 0..9, A..Z->a..z, a..z, \
	U+00C0..U+00D6->U+00E0..U+00F6, U+00E0..U+00F6, \
	U+00D8..U+00DE->U+00F8..U+00FE, U+00F8..U+00FE, \
	U+0152->U+0153, U+0153 \

Morphology
==========
# builtin preprocessors are 'none', 'stem_en', 'stem_ru', 'stem_enru',
# 'soundex', and 'metaphone'; additional preprocessors available from
# libstemmer are 'libstemmer_XXX', where XXX is algorithm code
# (see libstemmer_c/libstemmer/modules.txt)

morphology = libstemmer_french

Taille minimum des mots ou l'on applique la morphology
min_stemming_len = 4


According to libstimmer.c/libstimmer/modules.txt, the french module can be refered to by either
 french, fr, fre, fra... french UTF_8,ISO_8859_1 french,fr,fre,fra


Utilisation des stopwords
=========================
un, une, le, la, les, de, des, du, dans, l', d', @

Créer un fichier de stopwords
sudo /usr/local/sphinx/bin/indexer --config /etc/sphinxsearch/sphinx.conf --buildstops stopwords-ent.txt 100 ent



Utilisation des wordforms
=========================
Appliquer après les règles de charset_table
Stemming n'est pas appliquer à ces mots , ils deviennent des exceptions

Les mots définis sont utilisé pour normalisé les mots durant l'indexation et la recherche, 
il est donc nécessaire de réindexé et redémarrer la recherche pour appliquer les changements

Divers
------

& > ET

Les chiffres
------------

un > 1
deux > 2
trois > 3
quatre > 4
cinq > 5
six > 6
sept > 7
huit > 8
neuf > 9
dix > 10
onze > 11
douze > 12
treize > 13
quatorze > 14
quinze > 15
seize > 16
vingt > 20
vingts > 20
trente > 30
quarante > 40
cinquante > 50
soixante > 60
quatrevingt > 80
cent > 100
cents > 100
mille > 1000

Les chiffres romain
-------------------


Les éléments de voies et abbréviations
--------------------------------------
Voir le wordforms