[ castellano ]
![]() |
DESCRIPCIÓCATCG és un sistema d'anàlisi morfosintàctica superficial per a text no restringit en català. És de base lingüística (formalisme Constraint Grammar) i altament modular. És una eina en desenvolupament constant que ja es fa servir per etiquetar textos en projectes interns i de recerca en els quals participa GLiCom (de la Universitat Pompeu Fabra, Barcelona). El sistema es compon dels mòduls següents (v. imatge): FORMARI: taula de formes que es construeix a partir de CATMORF, un analitzador-generador morfològic de dos nivells. Les formes reben informació sobre categoria morfològica i trets flexius, així com de subcategorizació verbal PREPROCÉS: verticalitza el text i identifica oracions, paràgrafs, dates, xifres, noms propis i abreviatures PROJECCIÓ MORFOLÒGICA: es realitza sense tenir en compte el context, a partir de la informació del formari GRAMÀTIQUES: El nucli del sistema el formen tres gramàtiques regulars escrites en el formalisme CONSTRAINT GRAMMAR. L'estratègia essencial d'aquesta aproximació consisteix a elaborar una anàlisi morfosintàctica parcial a partir de la informació contextual proporcionada en cada oració. Les gramàtiques realitzen les tasques següents:
|
Dades tècniques:
|
La relativament baixa precisió de CATCG és deguda a la voluntat d'aconseguir un percentatge d'error baix en relació a la cobertura, és a dir, elaborar només regles molt fiables. Amb el formalisme CG, i amb aquesta aproximació, vam calcular que el sostre està en un 94%-96% de precisió global. Algunes de les ambigüitats persistents es processaran en mòduls posteriors: actualment s'està desenvolupant un mòdul per a tractar l'adjunció de SP. Una altra de les línies d'investigació actuals és la d'adquirir i explotar informació semàntica. |
GLiCom
Departament de Traducció i Filologia
Universitat Pompeu Fabra
Rambla, 30-32
08002 Barcelona
Persona de contacte: Toni Badia
Tel. 93 542 24 14
Fax 93 542 16 17
http://www.upf.edu/glicom