Sqlserver
 sql >> Database >  >> RDS >> Sqlserver

Come ignorare i tag html in Sql Server 2008 Full Text Search

c'è un filtro per i file .htm e .html.

per vedere se hai installato il filtro, esegui questo sql:

SELECT * FROM sys.fulltext_document_types

dovresti vedere:

.htm E0CA5340-4534-11CF-B952-00AA0051FE20 C:\Program Files\Microsoft SQL Server\MSSQL10.MSSQLSERVER\MSSQL\Binn\nlhtml.dll 12.0.6828.0 Microsoft Corporation

.html E0CA5340-4534-11CF-B952-00AA0051FE20 C:\Program Files\Microsoft SQL Server\MSSQL10.MSSQLSERVER\MSSQL\Binn\nlhtml.dll 12.0.6828.0 Microsoft Corporation

quindi, se puoi convertire la colonna degli articoli in varbinary(max), puoi aggiungere un indice di testo completo su di essa e specificare un tipo di documento '.html'

una volta popolato l'indice, puoi verificare le parole chiave utilizzando questo sql:

SELECT display_term, column_id, document_count
FROM sys.dm_fts_index_keywords
(DB_ID('your_db'), OBJECT_ID('your_table'))