sdsphinx

History

Michael RICOIS acad0ec96e Change path		2015-02-13 16:12:02 +00:00
..
config-dev	Keep pid file in readable directory	2014-11-17 08:30:37 +00:00
config-prod	Change path	2015-02-13 16:12:02 +00:00
ubuntu-12.04/etc	Update config files	2014-02-10 09:07:13 +00:00
ubuntu-14.04/etc	Change path	2015-02-13 16:12:02 +00:00
configure.php	Ajout date plus complète	2014-04-17 10:35:01 +00:00
README	New configuration	2014-08-13 15:28:28 +00:00

README

La base de données doit communiqué en UTF-8

sql_query_pre     = SET NAMES utf8
charset_type = utf-8

# 'utf-8' defaults for English and Russian
charset_table = 0..9, A..Z->a..z, _, a..z, \
	U+410..U+42F->U+430..U+44F, U+430..U+44F

# For french
charset_table = 0..9, A..Z->a..z, a..z, \
	U+00C0..U+00D6->U+00E0..U+00F6, U+00E0..U+00F6, \
	U+00D8..U+00DE->U+00F8..U+00FE, U+00F8..U+00FE, \
	U+0152->U+0153, U+0153 \

Morphology
==========
# builtin preprocessors are 'none', 'stem_en', 'stem_ru', 'stem_enru',
# 'soundex', and 'metaphone'; additional preprocessors available from
# libstemmer are 'libstemmer_XXX', where XXX is algorithm code
# (see libstemmer_c/libstemmer/modules.txt)

morphology = libstemmer_french

Taille minimum des mots ou l'on applique la morphology
min_stemming_len = 4


According to libstimmer.c/libstimmer/modules.txt, the french module can be refered to by either
 french, fr, fre, fra... french UTF_8,ISO_8859_1 french,fr,fre,fra


Utilisation des stopwords
=========================
un, une, le, la, les, de, des, du, dans, l', d', @

Créer un fichier de stopwords
sudo /usr/local/sphinx/bin/indexer --config /etc/sphinxsearch/sphinx.conf --buildstops stopwords-ent.txt 100 ent



Utilisation des wordforms
=========================
Appliquer après les règles de charset_table
Stemming n'est pas appliquer à ces mots , ils deviennent des exceptions

Les mots définis sont utilisé pour normalisé les mots durant l'indexation et la recherche, 
il est donc nécessaire de réindexé et redémarrer la recherche pour appliquer les changements

Divers
------

& > ET

Les chiffres
------------

un > 1
deux > 2
trois > 3
quatre > 4
cinq > 5
six > 6
sept > 7
huit > 8
neuf > 9
dix > 10
onze > 11
douze > 12
treize > 13
quatorze > 14
quinze > 15
seize > 16
vingt > 20
vingts > 20
trente > 30
quarante > 40
cinquante > 50
soixante > 60
quatrevingt > 80
cent > 100
cents > 100
mille > 1000

Les chiffres romain
-------------------


Les éléments de voies et abbréviations
--------------------------------------
Voir le wordforms