Stemming è un algoritmo attraverso il quale il motore di ricerca trova altri temi indirettamente correlati alla query di ricerca.
Lo stemming è un metodo IR (Information retrieval) che identifica la radice delle parole per generalizzare le operazioni di interrogazione e selezione dei documenti in un archivio. Lo stemming trasforma le parole nella loro forma flessa e più generale.
Più precisamente lo stemming è un processo di trasformazione di una parola dalla forma flessa alla forma radice. Gli algoritmi di stemming sono utilizzati dai motori di ricerca per ampliare il campo dei risultati alle parole con eguale radice alla keyword di ricerca.
L’algoritmo di stemming consente di ampliare i risultati di ricerca includendo parole chiave simili, altrimenti escluse dalla selezione. In un search engine il processo di stemming elabora le parole di una ricerca ( query ) e riconduce ogni termine alla sua radice equivalente ( tema o radice linguistica ).
Ciò consente di ampliare i record selezionati, includendo anche i termini che non sono esattamente uguali alla chiave della ricerca. Il primo algoritmo di stemming viene sviluppato nel 1968 da Julie Beth Lovins. Nel 1980, dopo diversi miglioramenti, l’algoritmo di stemming ottiene una versione standard per la lingua inglese con l’algoritmo di Martin Porter.
I principali problemi dello stemming sono:
- Stessa radice ma significati diversi: la radice identifica famiglie di parole con significato differente
- Stesso significato ma radice diversa: le parole con lo stesso significato possono anche avere una radice differente