2010-01-03

FIltrar texto com PHP

Dou por mim a estas horas no meio de um projecto em PHP, com necessidade de desenvolver a classe mais engraçada de todas que escrevi: badwords. O objectivo é fácil de perceber: estão a chegar a um site que administro buscas com palavras e expressões típicas de níveis civilizacionais inferiores...

No meio de uma quantidade de sites ingénuos, que fazem substituição directa de palavras, este site tem boas dicas para filtrar texto em PHP.

A não esquecer a função levenshtein, que nos dá a "distância" entre dois strings, ou seja quantidade de alterações necessárias para transformar um string noutro.

Por exemplo, "porto" tem uma distância levenshtein de 1 perante a palavra "parto", dado que basta uma alteração de uma letra para chegar de uma até outra.

Longe vão os tempos em que implementei o algoritmo de Ratcliff-Oobershelp, que descobri numa velha revista, em Visual Basic for Applications, e que me dava uma percentagem de semelhança entre dois pedacinhos de texto.

Muito útil, mesmo...

Sem comentários:

Enviar um comentário