TMILG
Na Galipedia, a wikipedia en galego.
O Tesouro Medieval Informatizado da Lingua Galega é un proxecto de investigación realizado no Instituto da Lingua Galega (ILG) (a cargo de Xavier Varela e en convenio coa DXPL > SXPL da Xunta de Galicia) que é visible na Internet a través do corpus TMILG (http://ilg.usc.es/tmilg). Este recurso permite buscas variadas na documentación galega medieval. Non ten parangón na historia de ningunha das linguas románicas. As obras que ofrece son moi variadas, e van dende a lírica profana ou relixiosa (Lírica trobadoresca galego-portuguesa, Cantigas de Santa María) ata a prosa técnica (Arte de Trovar, Tratado de Albeitaría), pasando pola prosa literaria (Crónica Troiana, Historia Troiana, Livro de Tristán), a prosa histórica (Crónica Xeral e Crónica de Castela, Xeral Historia), a prosa relixiosa (Miragres de Santiago, Corónica de Santa María de Iria) e a prosa xurídica (Flores de Dereito, fragmentos da Partidas, Ordenamento de Alcalá de Henares...). Lugar preferente é o da prosa notarial, abranxente de copiosas coleccións relixiosas e civís, entre as que destacan especialmente as monásticas. Para acceder a este corpus é preciso rexistrarse (http://ilg.usc.es/tmilg).
Índice |
[editar] Equipo, historia e patrocinio
O equipo, dirixido por Xavier Varela, está formado por investigadores, bolseiros e colaboradores da Universidade de Santiago de Compostela e da Universidade de Vigo. Desde 1993, e en coordinación co equipo do TILG, vén enriquecendo permanentemente as súas bases textuais. Nestes anos modificáronse en varias ocasións os procedementos de etiquetaxe e de lematización para refinalos. Ao cabo da terceira revisión, incorpóranse os textos ao recurso on-line. O proxecto puido realizarse polo esforzo institucional do ILG e polo patrocinio da Dirección Xeral de Política Lingüística > Secretaría Xeral de Política Lingüística da Xunta de Galicia.
[editar] Características e datos
En outubro de 2005 a base do TMILG contén a totalidade das obras non notariais publicadas da Galicia medieval (literarias, históricas, relixiosas, xurídicas e técnicas). Das obras notariais xa está incluída unha boa parte das publicadas (aproximadamente o 85%) e están moi avanzados os traballos para a carga das restantes, prevista para mediados de 2006. En número, os documentos colectados son máis de 12.500. O arco cronolóxico vai do século XIII a principios do XVI (con rexistros romances desde o VIII).
Os textos non foron modificados, agás na unión de palabras cortadas ao final da liña, polo que o usuario non queda eximido de bater cos erros inevitables na lectura e edición de textos medievais. Respectáronse as grafías da edición impresa empregada como base (os diferentes tipos de "s", o signo tironiano ou o til de nasalidade sobre vogais e consoantes). O etiquetado dos textos axeitouse a cada tipoloxía textual. Na versión para a internet excluíronse algunhas etiquetas para facela máis homoxénea e manexable. Quedaron as seguintes: nome estandarizado, indicacións para a localización dos exemplos (volume, capítulo e páxina), referencias cronolóxicas (ano ou rango de anos, século e, no caso dos documentos notariais, tamén o mes), autoría, localización xeográfica, tipoloxía textual (ata tres niveis xerárquicos), carácter orixinal ou non do texto e lingua orixinal se se trata dunha tradución.
[editar] Estatísticas
- En número de palabras o TMILG pasa na actualidade dos nove millóns, que dan arredor de 170.000 formas gráficas distintas.
- As dez máis frecuentes son, por esta orde, d(e), e(t), a, que, o, en, por, el, os e se; constitúen o 29,62% de todo o corpus.
- Os primeiros substantivos comúns son carta, parte, rrey, lugar e terra.
- Os primeiros antropónimos son Fernando e Afonso.
- Os primeiros topónimos galegos son Lugo, Orzellon, Oseira e Tuy.
- Os foráneos son Castella, Troya, Toledo, Cordoua e Leõ.
- As formas gráficas de ocorrencia única rondan as 95.000.
- Polo número de sílabas as máis frecuentes son as bisílabas, seguidas de cerca polas trisílabas, monosílabas, tetrasílabas e pentasílabas.
[editar] Consultas e utilidade
O corpus é de acceso libre, previo rexistro como usuario. O sistema de consulta permite buscar unha ou varias palabras, facer buscas booleanas e utilizar comodíns. Pódense refinar as buscas facendo restricións cronolóxicas, por xénero, por subxénero ou por obra.
Este corpus foi fabricado para a elaboración dunha gramática histórica. Ten utilidade en todas as ramas lingüísticas e literarias da filoloxía, así como en moitas outras disciplinas, entre as que destacan a historia, a paleografía, a xeografía, o dereito e a política, a antropoloxía, as ciencias da saúde, a náutica, a botánica, a zooloxía, etc.
[editar] Ligazóns externas
Corpus lingüísticos | |
---|---|
Galego textual: CODOLGA - TMILG - TILG - CORGA - CLUVI - CTG - TUVI | |
Galego oral: ASG | |
Portugués: CPM - CPM - DPM - AC/DC | |
Castelán textual: CREA - CORDE - Cumbre - Lexesp | |
Castelán oral: COREC - MNLCCMH - SoCREA - Val.Es.Co - C-ORAL-ROM - PRESEEA - Corpus del Español Histórico y Moderno |