Mysql
 sql >> Database >  >> RDS >> Mysql

Funzione Jaro-winkler:perché lo stesso punteggio corrisponde a parole molto simili e molto diverse?

La formula della distanza di Jaro-Winkler è orientata verso le stringhe con un inizio comune. Ad esempio, Valentina e Valentiria .

Ha anche alcune "regole" non così intuitive (vedi wikipedia ).

Probabilmente dovresti prima determinare che tipo di dissomiglianza ti aspetti, quindi cercare una formula di distanza adeguata. Ad esempio, per iscritto, "angleworm" e "angelworm" è un errore molto probabile, quindi la distanza tra le due stringhe dovrebbe essere bassa. Mentre la mancata corrispondenza "là" e "tre" è meno probabile e "etere" lo è ancora di più. Con anagrammi più lunghi, la distanza di Jaro potrebbe essere esattamente la stessa e anche la correzione di Winkler potrebbe non intervenire.

Come puoi leggere in questa pagina (sottolineatura mia)