Segmentació de text

La segmentació de text és el procés de dividir text escrit en unitats significatives, com paraules, frases o temes. El terme s'aplica tant als processos mentals utilitzats pels humans a l'hora de llegir text, com als processos artificials implementats en ordinadors i altres dispositius. Tot i que pot semblar una tasca trivial, en alguns idiomes s'empren indicadors de canvi de paraula o de frase poc habituals.

La segmentació de text també està relacionada amb altres tipus de segmentació, com és la segmentació per sentiment (anàlisi de sentiment), l'obtenció de paraules clau i subseqüent divisió del text en blocs entorn d'aquestes (segmentació d'intencions), la detecció i segmentació de temes, o la separació morfològica (anàlisi morfològica).

Tipus de segmentació de text

Segmentació de frases

La segmentació de frases (en anglès Sentence boundary disambiguation, SBD) és el problema en processament de llenguatge natural de decidir on comença i acaba cada frase. En idiomes com l'anglès o el català, localitzar els punts i identificar-los segons si es tracta d'una abreviatura i segons si la següent lletra és majúscula, permet obtenir un bon resultat en la majoria de casos.^[1] Un altre possible enfocament és entrenar automàticament un conjunt de regles a partir d'un conjunt de documents on els salts de frase han estat marcats prèviament, mitjançant el principi de màxima entropia.^[2]^[3]

Segmentació de paraules

La segmentació de paraules és la tasca de dividir una cadena de llenguatge escrit en les seves paraules components. S'han proposat diversos criteris per identificar paraules, però cap és universal.^[4] En català i moltes altres llengües que utilitzen alguna forma de l'alfabet llatí, la identificació dels espais tipogràfics és una bona aproximació per fer la divisió per paraules. Tanmateix, algunes llengües tenen una escriptura que no inclou cap caràcter separador, i sense ell la segmentació de paraules esdevé un problema difícil de resoldre.^[5]

Segmentació de temes

Un document pot contenir diversos temes, i la tasca de la segmentació de text pot ser descobrir aquests temes automàticament i segmentar el text en conseqüència, per tal de buscar paraules clau, crear resums automàtics o fer una anàlisi del discurs, entre altres aplicacions.^[6]

Els límits de cada tema poden ser evidents a partir dels títols i paràgrafs de les seccions. En altres casos, cal fer servir tècniques similars a les que s'utilitzen per a la classificació de documents.^[7] En general, es tracta d'una tasca complexa a causa de la seva ambigüitat en decidir els límits de cada tema.

Referències

↑ O'Neil, John. «Doing Things with Words, Part Two: Sentence Boundary Detection». Arxivat de l'original el 3 novembre 2013. [Consulta: 5 juliol 2022].
↑ «An Adaptive Sentence Boundary Detector». SATZ. Arxivat de l'original el 22 setembre 2007. [Consulta: 5 juliol 2022].
↑ Reynar, Jeffrey C.; Ratnaparkhi, Adwait «A Maximum Entropy Approach to Identifying Sentence Boundaries» (PDF). Department of Computer and Information Science [University of Pennsylvania], 2009 [Consulta: 5 juliol 2022].
↑ Haspelmath, Martin «The indeterminacy of word segmentation and the nature of morphology and syntax». Folia Linguistica, 45, 1, 2011. DOI: 10.1515/flin.2011.002. ISSN: 0165-4004.
↑ Aikhenvald, Dixon. Cambridge University Press. Word: A cross-linguistic typology, 2002, p. 6. ISBN 0511061498. OCLC 57123416.
↑ Reynar, Jeffrey C. «Topic Segmentation: Algorithms and Applications» (PDF). University of Pennsylvania, 1998.
↑ Choi, Freddy Y. «Advances in domain independent linear text segmentation». Proceedings of the 1st Meeting of the North American Chapter of the Association for Computational Linguistics, 2000, pàg. 26–33.

Enllaços externs

«Unicode® Standard Annex #29 - UNICODE TEXT SEGMENTATION». [Consulta: 5 juliol 2022].
Segmentació del text de partida Arxivat 2022-07-05 a Wayback Machine. (català)

[1] O'Neil, John. «Doing Things with Words, Part Two: Sentence Boundary Detection». Arxivat de l'original el 3 novembre 2013. [Consulta: 5 juliol 2022].

[2] «An Adaptive Sentence Boundary Detector». SATZ. Arxivat de l'original el 22 setembre 2007. [Consulta: 5 juliol 2022].

[3] Reynar, Jeffrey C.; Ratnaparkhi, Adwait «A Maximum Entropy Approach to Identifying Sentence Boundaries» (PDF). Department of Computer and Information Science [University of Pennsylvania], 2009 [Consulta: 5 juliol 2022].

[4] Haspelmath, Martin «The indeterminacy of word segmentation and the nature of morphology and syntax». Folia Linguistica, 45, 1, 2011. DOI: 10.1515/flin.2011.002. ISSN: 0165-4004.

[5] Aikhenvald, Dixon. Cambridge University Press. Word: A cross-linguistic typology, 2002, p. 6. ISBN 0511061498. OCLC 57123416.

[6] Reynar, Jeffrey C. «Topic Segmentation: Algorithms and Applications» (PDF). University of Pennsylvania, 1998.

[7] Choi, Freddy Y. «Advances in domain independent linear text segmentation». Proceedings of the 1st Meeting of the North American Chapter of the Association for Computational Linguistics, 2000, pàg. 26–33.

[1]

[2]

[3]

[4]

[5]

[6]

[7]