For faster navigation, this Iframe is preloading the Wikiwand page for TreeBank.

TreeBank

TreeBank (denominado también como Corpus parseado o más ampliamente Penn Treebank) es un corpus lingüístico en el que cada frase ha sido parseada, es decir anotada con su estructura sintáctica. La estructura sintáctica se ha representado generalmente como una estructura arbórea que recibe la denominación de TreeBank.[1]​ En la mayoría de los casos se ha empleado etiquetado gramatical. La denominación alternativa corpus parseado se emplea a menudo con el Treebank: realizando énfasis en la primacía de las frases en lugar de las estructuras arbóreas. Los corpus Treebanks se pueden crear a mano mediante un grupo de lingüistas que anotan cada frase con una estructura sintáctica, o mediante procedimientos semiautomáticos, donde un analizador sintáctico (parser) asigna la estructura bajo la supervisión de un lingüista. En la práctica, el completo control del parseado del lenguaje natural con el objeto de establecer diferentes corpus es una labor intensiva que dedica el tiempo de varios equipos de lingüistas, pudiendo alcanzar varios años.

Representación

[editar]

Por ejemplo, el análisis sintáctico de la frase Víctor ama a María, puede ser representado de diversas formas, por ejemplo con un sistema anidado de paréntesis en el texto, como este (siguiendo la notación del Penn Treebank):

(S (NP (NNP Víctor))
   (VP (VPZ ama)
        (PP (TO a)
          (NP (NNP María))))
   (. .))

Esta representación es la más habitual y antigua, aunque desde comienzos del siglo XXI se han venido empleando anotaciones cada vez más complejas, siendo una de las posibles respresentaciones en XML.[2]​ En ella se puede ver como cada palabra se anota con su función sintáctica: nombre, verbo, adjetivo.

Usos

[editar]

Una de las aplicaciones directas de los treebanks es el aprendizaje de gramáticas (inducción gramatical).[3]​ En analizadores fragmentales de texto (chunkers) capaces de separar las diversas frases de un texto. Estos analizadores se denominan a veces como "segmentación sintáctica básica".

Véase también

[editar]

Referencias

[editar]
  1. A. Abeillé, (2003), Treebanks: Building and Using Parsed Corpora, Kuwler Academic Publisher
  2. Ruslan Mitkov, (2004),The Oxford Handbook of Computational Linguistics, Oxford University Press
  3. Amparo Alcina,Esperanza Valero, (2009), Terminología y Sociedad del Conocimiento, Peter Lang AG

Enlaces externos

[editar]
{{bottomLinkPreText}} {{bottomLinkText}}
TreeBank
Listen to this article

This browser is not supported by Wikiwand :(
Wikiwand requires a browser with modern capabilities in order to provide you with the best reading experience.
Please download and use one of the following browsers:

This article was just edited, click to reload
This article has been deleted on Wikipedia (Why?)

Back to homepage

Please click Add in the dialog above
Please click Allow in the top-left corner,
then click Install Now in the dialog
Please click Open in the download dialog,
then click Install
Please click the "Downloads" icon in the Safari toolbar, open the first download in the list,
then click Install
{{::$root.activation.text}}

Install Wikiwand

Install on Chrome Install on Firefox
Don't forget to rate us

Tell your friends about Wikiwand!

Gmail Facebook Twitter Link

Enjoying Wikiwand?

Tell your friends and spread the love:
Share on Gmail Share on Facebook Share on Twitter Share on Buffer

Our magic isn't perfect

You can help our automatic cover photo selection by reporting an unsuitable photo.

This photo is visually disturbing This photo is not a good choice

Thank you for helping!


Your input will affect cover photo selection, along with input from other users.

X

Get ready for Wikiwand 2.0 🎉! the new version arrives on September 1st! Don't want to wait?