11/6/10

Lingüística computacional (VIII)





(El capítulo anterior de esta serie puede verse
aquí)




Gramática Sintagmática nuclear

Este modelo de gramática, desarrollado por el profesor Pollard (arriba en la foto), recibe en inglés el nombre de HPSG o Head-driven Phrase Structure Grammar. Se trata de una gramática de unificación basada en estructuras de rasgos (ver capítulos anteriores si se requiere recordar estos conceptos) los cuales se eligen de entre un conjunto amplio y bien categorizado de rasgos y valores. La gramática HPSG parte de la estructura superficial de la oración y, por tanto, no necesita apelar a ninguna estructura profunda y no es transformacional. Hoy en día, este formalismo es el más extendido en las aplicaciones computacionales. De hecho, puede decirse que HPSG es más una técnica computacional de plasmar una gramática que un modelo teórico de lenguaje.

Un importante concepto de esta gramática es que define el signo , una colección de información representada como una estructura rígida y determinada que se aplica a todos las posibles palabras o categorías. Las palabras, los sintagmas, las oraciones, comparten un único modelo de signo perfectamente estructurado en el que ciertos atributos están o no presentes según el tipo que sea. Este signo es una matriz de rasgos que incluye siempre, al menos, dos atributos llamados PHON, que describe la fonética del signo, y SYNSEM que incorpora toda la información sintáctica y semántica. Este atributo SYNSEM se desglosa posteriormente en otra serie de atributos también perfectamente definidos. En la gramática sintagmática nuclear, un atributo puede tener como valor una estructura de rasgos compleja ordenada o desordenada. Pero cualquiera que sea, pertenecerán a unos tipos determinados y estandarizados. Si el signo se aplica a una palabra incluye el subtipo word. Si se aplica a una frase, recibe el subtipo phrase o frasal.

Es ya obvio que esta estandarización del rasgo tiene ventajas indudables para la programación. Los algoritmos que deban manejar la gramática se encontrarán con un objeto conocido y manejable. Que este objeto describa el lenguaje más o menos correctamente no es tan importante. Lo fundamental es que es tratable de manera eficiente por un ordenador. Una ventaja adicional es que HPSG puede utilizarse tanto para analizar la sintaxis de un lenguaje como para generarlo.

A diferencia de las gramáticas transformacionales, HPSG defiende que las estructuras idiomáticas se forman mediante las operaciones de unificación y subsunción que vimos en capítulos anteriores. Asimismo, esta gramática entiende las reglas como restrictivas, es decir una regla señala las restricciones que han de existir al combinar palabras o sintagmas pero no define el orden concreto en que estos constituyentes deben aparecer.


Representación del conocimiento


En HPSG se representa la estructura lingüística mediante matrices de rasgos (o AVM, Attribute Value Matrix). La siguiente figura muestra un ejemplo (no completo) de formato de esta matriz:




Las palabras clave en mayúsculas son los atributos del rasgo. A su lado, se indican los tipos de valores que pueden tomar dichos atributos.

Los atributos pueden desplegarse con más palabras clave:




Cuando esta matriz describe un sintagma se usan ciertos atributos. Cuando describe una palabra, apareen otros o algunos de ellos pueden quedar inactivos como, por ejemplo, NONLOC y QSTORE en el caso anterior.

Cuando existe una estructura compartida se utiliza la misma notación (un número dentro de un cuadrado) que ya vimos en capítulos anteriores.

Veamos, por ejemplo, la matriz para algunas palabras en inglés y castellano:














Un elemento importante que cuelga de SYNSEM es la característica HEAD que, por sí misma, es otra matriz completa de atributos . O información sobre el especificador SPR o el complemento COMP. Por ejemplo:




En HSPG se distingue ente núcleos sustanciales y núcleos funcionales. Los primeros contribuyen sustancialmente a las semántica de los signos en los que están incluidos (equivale a las categorías mayores en otras gramáticas). Las categorías sustanciales incluyen siempre dos rasgos particulares: MOD (que expresa la modificación entre núcleo y adjunto) y PRD (predicativo).

Los núcleos funcionales pueden ser determinantes (artículos, etc) o marcadores (comparativos, completivos, etc).


Los signos para sintagmas incluyen el atributo DTRS (Daugthers features)que sirve para representar la estructura de constituyentes hijos del sintagma:




Este signo se suele descomponer en diferentes tipos de “hijos” como HEADS, COMPS, SPECS y ADJUNTOS. Una matriz de este tipo puede ser:





Reglas, principios y unificación



Los signos o estructuras de rasgos de los que hemos hablado en la sección anterior interactúan con las reglas y los principios para formar expresiones correctas de un idioma. Las reglas y los principios limitan qué signos son correctos en cada idioma. La diferencia entre reglas y principios es que estos se aplican a todos los signos mientras que aquellas se aplican sólo a algún determinado tipo de signos dependiendo de la regla (por ejemplo, sólo a los signos que caracterizan una frase y no a los que describen palabras).

Dentro de los principios HPSG, hay dos principales. EL HFP (Head Feature principle) y el de subcategorización SP. El principio HFP sigue el espíritu de la teoría X-barra y define que un sintagma es proyección de su núcleo (puede repasarse al respecto los visto en capítulos anteriores). Este hecho implica en HPSG que el rasgo de un signo frasal y el rasgo del signo que funciona como núcleo comparten obligatoriamente el mismo valor. Esto puede ilustrarse con el siguiente gráfico:

Por su parte, el principio SP es responsable de la correcta coordinación de categorías en la construcción de un signo complejo a partir de un núcleo y de sus complementos.

En cuanto a las reglas, HPSG usa tres tipos principales:

- Reglas léxicas (RLs)
- Reglas de procedencia lineal (RPLs)
- Esquemas de dominancia inmediata (EDIs)


Las reglas RL actúan sobre el lexicón generando, por ejemplo, los plurales, ciertas formas flexivas, etc. Así evitamos tener que almacenar en memoria cada palabra en plural y en singular. Basta archivar la singular y aplicar la regla para hallar el plurar. O para determinar las flexiones de los verbos a partir de la raíz.

Las reglas EDI son esquemas de buena formación. Por ejemplo, que un sintagma nominal se forma con un signo N y un determinante. Las reglas EDI no determinan el orden. En el caso anterior, sólo dirían que el SN se forma con un N y un DET pero no define si debe ser DET,N o N,DET. Sí define que no puede ser DET,V por ejemplo. Son, por tanto, reglas muy generales que pueden generan gran tipo de frases que luego han de filtrarse por las reglas RPL. Estas reglas RPL establecen el orden final de las cadenas formadas mediante las reglas EDI.

Reglas importantes son las siguientes:

HC rule o Head-complement rule:


HS rule o Head-specifier-rule:


HM rule o Head-modifier rule:


Al contrario que en GPSG, HPSG no utiliza restricciones. Para combinar los signos de acuerdo a las reglas, HPSG utiliza la unificación. Como ya vimos en capítulos anteriores, la unificación crea un nuevo signo que satisface a los que unifican para formarlos. Y ello implica que los signos a unificar deben ser compatibles. En HPSG, la unificación es el método de realizar cómputos sobre la estructura.


Estructura de constituyentes


En HPSG se definen cuatro posibles estructuras nucleadas, es decir aquellas en las cuales el núcleo comparte los rasgos del nodo madre. Son:

Estructura núcleo-complemente que es la más elemental. En esta estructura hay un único núcleo por sintagma y puede haber o no complementos. El orden es SUJETO;<objeto directo;<Objeto indirecto;<complementos.


Estructura núcleo-adjunto. En esta estructura los adjuntos tienen un contenido semántico idéntico al del núcleo. Los adjuntos son funciones que toman núcleos como argumentos.

Estructura núcleo-relleno. El relleno (o filler) es la denominación que se da en HPSG a los sintagmas desplazados de su posición habitual como por ejemplo en las oraciones interrogativas o relativas.

Estructura núcleo-marcados. Un marcador es una palabra cuyo contenido semántico es lógico o está vacío (por ejemplo el que completivo, el como comparativo, el sicondicional, etc.).


Notación computacional

Dado que las líneas verticales de la matriz no puede representarse en un algoritmo se usan paréntesis y corchetes anidados. Así:







Construyendo frases


Supongamos el lexicón compuesto por estos dos signos:








En HPSG, un signo de frase unifica con dos o más signos hija que transmiten su información hacia arriba. Así, el signo frasal que se ve a continuación ha unificado un signo núcleo (el verbo) con un signo que corresponde al sujeto. Es decir un signo unficado que correspondería a la frase él anda:



En papel (que no en algoritmo) esta unificación se suele representar en forma de árbol:





Supongamos ahora, por ejemplo, un lexicón con cuatro signos:






La frase
el león come carne se unificaría en forma de árbol como:





To be continued….
(El capítulo siguiente de esta serie puede leerse en este enlace)






2 comentarios :

Fran dijo...

Excelente serie pero no me queda claro cómo se pasa de toda esta arquitectura teórica a la práctica porque lo cierto es que los ordenadores no componen escritos por sí solos.
Saludos.

Félix Remírez dijo...

Precisamente, en el siguiente capítulo explicaré algunas aplicaciones prácticas pero es cierto que hay un salto entre la teoría y la práctica y que esta, muchas veces, parte de conceptos que no siguen las grámáticas formales.