La segmentació de text és el procés de dividir text escrit en unitats significatives, com paraules, frases o temes. El terme s'aplica tant als processos mentals utilitzats pels humans a l'hora de llegir text, com als processos artificials implementats en ordinadors i altres dispositius. Tot i que pot semblar una tasca trivial, en alguns idiomes s'empren indicadors de canvi de paraula o de frase poc habituals.
La segmentació de text també està relacionada amb altres tipus de segmentació, com és la segmentació per sentiment (anàlisi de sentiment), l'obtenció de paraules clau i subseqüent divisió del text en blocs entorn d'aquestes (segmentació d'intencions), la detecció i segmentació de temes, o la separació morfològica (anàlisi morfològica).
La segmentació de frases (en anglès Sentence boundary disambiguation, SBD) és el problema en processament de llenguatge natural de decidir on comença i acaba cada frase. En idiomes com l'anglès o el català, localitzar els punts i identificar-los segons si es tracta d'una abreviatura i segons si la següent lletra és majúscula, permet obtenir un bon resultat en la majoria de casos.[1] Un altre possible enfocament és entrenar automàticament un conjunt de regles a partir d'un conjunt de documents on els salts de frase han estat marcats prèviament, mitjançant el principi de màxima entropia.[2][3]
La segmentació de paraules és la tasca de dividir una cadena de llenguatge escrit en les seves paraules components. S'han proposat diversos criteris per identificar paraules, però cap és universal.[4] En català i moltes altres llengües que utilitzen alguna forma de l'alfabet llatí, la identificació dels espais tipogràfics és una bona aproximació per fer la divisió per paraules. Tanmateix, algunes llengües tenen una escriptura que no inclou cap caràcter separador, i sense ell la segmentació de paraules esdevé un problema difícil de resoldre.[5]
Un document pot contenir diversos temes, i la tasca de la segmentació de text pot ser descobrir aquests temes automàticament i segmentar el text en conseqüència, per tal de buscar paraules clau, crear resums automàtics o fer una anàlisi del discurs, entre altres aplicacions.[6]
Els límits de cada tema poden ser evidents a partir dels títols i paràgrafs de les seccions. En altres casos, cal fer servir tècniques similars a les que s'utilitzen per a la classificació de documents.[7] En general, es tracta d'una tasca complexa a causa de la seva ambigüitat en decidir els límits de cada tema.