CATCG:

Un sistema de anàlisis morfosintàctic pel català

[ castellano ]  

GLiCom

Grup de Lingüística Computacional
Universitat Pompeu Fabra
Barcelona

 

DESCRIPCIÓ

CATCG és un sistema d'anàlisi morfosintàctica superficial per a text no restringit en català. És de base lingüística (formalisme Constraint Grammar) i altament modular. És una eina en desenvolupament constant que ja es fa servir per etiquetar textos en projectes interns i de recerca en els quals participa GLiCom (de la Universitat Pompeu Fabra, Barcelona).

El sistema es compon dels mòduls següents (v. imatge):

FORMARI: taula de formes que es construeix a partir de CATMORF, un analitzador-generador morfològic de dos nivells. Les formes reben informació sobre categoria morfològica i trets flexius, així com de subcategorizació verbal

PREPROCÉS: verticalitza el text i identifica oracions, paràgrafs, dates, xifres, noms propis i abreviatures

PROJECCIÓ MORFOLÒGICA: es realitza sense tenir en compte el context, a partir de la informació del formari

GRAMÀTIQUES: El nucli del sistema el formen tres gramàtiques regulars escrites en el formalisme CONSTRAINT GRAMMAR. L'estratègia essencial d'aquesta aproximació consisteix a elaborar una anàlisi morfosintàctica parcial a partir de la informació contextual proporcionada en cada oració. Les gramàtiques realitzen les tasques següents:

  • Desambiguació morfològica: la desambiguació morfològica assigna a cada paraula una etiqueta amb informació morfològica (p.e., nom comú masculí plural). El mòdul que la realitza l'anomenem Desambiguador Morfològic del Català (DeMCat). Ex. de regla:
  • REMOVE TARGET (Verb) IF (0 NOM) (-1 DET) (-2C PREP);

  • Projecció sintàctica: la projecció sintàctica es realitza de manera controlada, és a dir, evitant projectar lectures ambigües en contextos suficientment segurs. Ex. de regla:
  • MAP (@ATR) TARGET (Adj) IF (-1 VCOP) (NOT *1 NOM BARRIER BAR_DF OR COMA);

  • Desambiguació sintàctica: l'anàlisi sintàctica superficial proporciona informació sobre la funció sintàctica de cada paraula: s'assigna una etiqueta amb el nom de la funció i, en alguns casos, s'indica la direcció del nucli (p. e., es diferencia entre adjunts nominals de nom situat a l'esquerra o a la dreta). Ex. de regla:
  • REMOVE TARGET (@Subj) IF (0 NOM) ( -1C PREP);

 

CATCG: ESTAT DEL PROJECTE I PERSPECTIVES DE FUTUR

Dades tècniques:

  DeMCat ASCat
Precisión 0.92 0.78
Cobertura 0.98 0.96
F (alpha = 0.5) 0.95 0.87

La relativament baixa precisió de CATCG és deguda a la voluntat d'aconseguir un percentatge d'error baix en relació a la cobertura, és a dir, elaborar només regles molt fiables. Amb el formalisme CG, i amb aquesta aproximació, vam calcular que el sostre està en un 94%-96% de precisió global. Algunes de les ambigüitats persistents es processaran en mòduls posteriors: actualment s'està desenvolupant un mòdul per a tractar l'adjunció de SP. Una altra de les línies d'investigació actuals és la d'adquirir i explotar informació semàntica.

 

El Grup GLiCom

GLiCom
Departament de Traducció i Filologia
Universitat Pompeu Fabra
Rambla, 30-32
08002 Barcelona
Persona de contacte: Toni Badia
Tel. 93 542 24 14
Fax 93 542 16 17
http://www.upf.edu/glicom

Demo del sistema CATCG: http://catcg.upf.edu