LSI (Latent Semantic Indexing), si basa sul principio che le parole usate nello stesso contesto tendono ad avere significati simili. La LSI ha la capacità di estrarre il concetto espresso in un testo creando associazioni con i termini che occorrono in documento che trattano contesti simili.
La LSI considera due documenti semanticamente vicini se hanno molte parole chiave in comune, mentre li considera semanticamente distanti se hanno poche parole chiave in comune.
Quando si effettuava una ricerca in un database indicizzato con la tecnica LSI, il motore di ricerca restituiva il documento considerato il più vicino semanticamente parlano in risposta alla query.
Più precisamente è una tecnica nell’elaborazione del linguaggio naturale, in particolare la semantica distributiva, per analizzare le relazioni tra un insieme di documenti e i termini in essi contenuti producendo un insieme di concetti relativi ai documenti e ai termini. Presuppone che le parole che hanno un significato simile si trovano in parti di testo simili (l’ipotesi distributiva).
Quindi è un metodo di indicizzazione e information retrieval che usa una tecnica matematica chiamata singular value decomposition (SVD) per identificare modelli nelle relazioni tra parole e concetti contenuti in un documento.
Una caratteristica fondamentale della LSI è la capacità di estrarre il concetto espresso in un testo creando associazioni con i termini che occorrono in documenti che trattano contesti simili.
Lo studio della LSI ha dato origine negli anni a funzioni più evolute e complesse usate per indicizzare i documenti del web, una materia interessante in questo senso è, ad esempio, la probabilistic LSI.