Linguistica computazionale
Da Wikipedia, l'enciclopedia libera.
L'utente Mau db ha chiesto di verificare che questa voce non costituisca una violazione di copyright perché L'utente che ha creato la voce vi ha inserito una grossa porzione di testo in copyviol da http://www.linguaggioglobale.com/newmedia/lem/14librocomputer.htm, altre parti potrebbero non essere pulite.
- La voce è stata inserita nella categoria Da controllare per copyright - linguistica.
- Se puoi, contribuisci a riscriverla per assicurarne la compatibilità con la licenza GFDL (vedi Wikipedia:Copyright per maggiori dettagli).
- Per eventuali note usa la pagina di discussione.
- Avvisa l'autore con il messaggio predefinito {{Avvisocontrolcopy|voce=Linguistica computazionale}}--~~~~
Con linguistica computazionale si intende, in generale, la disciplina riguardante l'utilizzo di strumenti informatici per l'elaborazione del linguaggio umano. Il processo di elaborazione vero e proprio viene chiamato elaborazione del linguaggio naturale (in inglese Natural Language Processing, in sigla NLP) e non è raro incontrare quest'ultimo termine come sinonimo di linguistica computazionale.
La linguistica computazionale è un campo interdisciplinare che unisce la statistica allo studio del linguaggi naturali da una prospettiva informatica. Questa gestione non è limitata a nessun particolare campo della linguistica. La Linguistica Computazionale in principio era un campo di studio affidato ad informatici specializzati nel programmare applicazioni atte a gestire un linguaggio naturale; tuttavia le recenti ricerche hanno mostrato che un linguaggio è molto più complesso di quanto si pensasse in precedenza, per questo motivo adesso i linguisti computazionali lavorano in gruppo insieme a linguisti. I Linguisti computazionali sono in genere un gruppo misto di: linguisti, informatici, esperti in intelligenza artificiale, psicologi cognitivi e logici.
La linguistica computazionale è collegata strettamente all'intelligenza artificiale: per intelligenza artificiale, spesso abbreviata in AI, si intende generalmente la possibilità di far svolgere ad un calcolatore alcune funzioni e alcuni ragionamenti tipici della mente umana. Ed infatti cosa c'è di più tipico dell'uomo se non il suo linguaggio, la sua capacità di comunicare?
La correlazione tra linguaggio ed intelligenza risulta quanto mai evidente dal fatto che il test di Turing - il criterio per stabilire se una macchina sia intelligente - si basa in gran parte sulla capacità linguistica.
Indice |
[modifica] Origini
La linguistica computazionale come campo di ricerca è addirittura precedente all' intelligenza artificiale, disciplina a cui è spesso accostata. La linguistica computazionale è originata dalla necessità negli Stati Uniti degli anni '50 di avere computer che traducessero automaticamente testi da altre lingue straniere verso l'Inglese, in particolare dai giornali scientifici Russi. Dato che i computer avevano dato prova di poter fare calcoli aritmetici molto più velocemente ed accuratamente degli umani, fu pensato che fosse possibile ideare programmi che potessero avere altrettanta capacità e accuratezza nel tradurre i testi.
Nonostante ogni sforzo però i metodi di traduzione automatica allora sviluppati, riuscivano a fornire soltanto traduzioni molto grossolane; si capì allora, che il problema fosse molto più complesso di quanto ritenuto in precedenza. La linguistica computazionale nacque come nome del nuovo campo di studio mirato allo sviluppo di algoritmi e software per la gestione automatica dei dati linguistici.
Quando l' intelligenza artificiale nacque, intorno agli anni sessanta, il campo della Linguistica Computazionale divenne una sottosezione dell' intelligenza artificiale che si occupava della comprensione a livello umano e della produzione di linguaggi naturali.
Per poter tradurre un linguaggio in un altro, fu osservato, era necessario capire la sintassi di entrambi i linguaggi, e almeno al livello di morfologia (linguistica) (la sintassi delle parola) l'intera frase.
Per poter capire la sintassi era necessario capire la semantica del vocabolario, e anche sapere qualcosa della pragmatica di come il linguaggio veniva usato.
Fu allora che, da semplice disciplina di traduzione automatica dei testi, la Linguistica Computazionale si evolse in una disciplina a parte che cercava di capire come rappresentare e gestire i linguaggi naturali individuali con l'ausilio dei computer.
[modifica] In Italia
[modifica] L'Index Thomisticus
Oggi ultraottantenne, padre Roberto Busa dell' Università Gregoriana di Roma è stato tra i precursori dell'informatica per l'analisi del testo, la lessicografia e la ricerca bibliografica.
Nel 1946, mentre stava redigendo una tesi su San Tommaso d'Aquino (la sua tesi avrà per titolo la Terminologia Tomistica dell'interiorità), matura l'idea di una verifica puntuale e integrale del lessico di San Tommaso proponendosi di servirsi di macchine adeguate. Nel 1949, trovandosi a New York, contatta Thomas Watson Sr., amministratore delegato della IBM e lo convince a fornire sostegno alle sue attività.
Inizia a lavorare allora al progetto dell'Index Thomisticus, che si propone di lemmatizzare (redigere l'indice lessicale e delle concordanze) l'intero corpus del filosofo, codificando ogni parola e registrandone tutte le flessioni; dapprima servendosi di schede perforate, poi di nastri magnetici sempre più capaci; finalmente, nel 1980, dopo trent'anni, il lavoro (per un totale di 62550 pagine) viene terminato presso l'Aloisianum di Gallarate e pubblicato in 56 volumi, col nome Index Thomisticus: sancti Thomae Aquinatis operum omnium indices e concordantiae.
Successivamente, con l'aiuto di Piero Slocovich, nel 1989 riesce ad ottenere una versione dell'Index sotto forma di ipertesto consultabile interattivamente e pubblicata su CD-ROM (Thomae Aquinatis Opera Omnia), e dal 2005, con l'aiuto di Enrique Alarcón e Eduardo Bernot, disponibile anche via web in inglese [1]; lavoro che è ancora oggi uno dei mezzi più utili per chi vuol fare ricerche su San Tommaso d'Aquino. La sua opera ci permette oggi di rintracciare in pochi istanti tutti i passi che contengono una qualsiasi parola contenuta nei 118 libri di S. Tommaso e in altri 61 di autori contemporanei. Questo sistema consente inoltre un'analisi linguistica del latino dell'epoca, dello stile dell'autore e permette la consultazione rapidissima delle occorrenze di ogni termine; operazioni che, fatte a mano, richiederebbero mesi se non anni di lavoro. Il sistema distingue inoltre i termini omografi, quei termini cioè che si scrivono allo stesso modo ma derivano da lemmi differenti e possiedono perciò significati diversi. Ad esempio: cercando la parola facies (che puo' significare sia il sostantivo viso che il verbo fare) il sistema avverte che esistono due significati possibili e chiede all'utente su quale desidera compiere l'analisi (quello che, in sostanza, sarà il compito del futuro linguista computazionale.
Grazie all'opera iniziata da padre Busa, la lessicografia e l'ermeneutica testuale ricevettero un grande contributo, e dettero inizio a quella che qualche anno più tardi avrebbe preso il nome di linguistica computazionale.
Padre Busa nel 1992 ha fondato la Scuola di Lessicografia ed Ermeneutica all'interno della Facoltà di Filosofia della Pontificia Università Gregoriana. Tale scuola promuove il campo ermeneutico e lessicologico mediante l'approfondimento del metodo lessicografico; mediante la riflessione sistematica sull'ontologia generativa del linguaggio e mediante lo studio del vocabolario intellettuale cristiano (specialmente quello del latino medievale - i Lemmata Christianorum - e ancor più in particolare di quello tommasiano, contribuendo alla creazione del Lexicon Thomisticum), e si caratterizza per il suo prioritario campo di indagine, l'analisi della patristica e della scolastica, e per il mezzo adottato per fare tutto ciò: l'informatica.
Questi lavori, con l'eccezione dell'Index, che ha avuto successo tra gli studiosi di San Tommaso, non hanno avuto una grande diffusione. Perché potessero essere apprezzati era necessario attendere la nascita di un'editoria elettronica di massa, un mercato e la diffusione in massa dei Personal Computer.
Oggi, la stessa quantità di informazioni non ha più bisogno di un supporto fisico, e potrebbe viaggiare in pochi istanti da un capo all'altro del mondo grazie al Web.
[modifica] Suddivisione
La linguistica Computazionale può essere divisa in grandi aree dipendenti dal genere linguaggio che si vuole gestire, se parlato o testuale; e il tipo di operazione che si vuol fare, se analizzare il linguaggio (parsing) o generare il linguaggio (generation).
il Riconoscimento vocale e la sintesi vocale si studiano come il linguaggio parlato puo' essere compreso o creato con l'ausilio dei computers. Parsing e generation sono suddivisioni della linguistica computazionale che si occupano rispettivamente di distinguere il linguaggio e di metterlo insieme. La traduzione automatica rimane la suddivisione della Linguistica Computazionale che si occupa della traduzione automatica dalle varie lingue
Alcune aree di ricerca studiate dalla linguistica computazionale sono:
- Corpora linguistici
- Progettazione di Parser per i linguaggi naturali
- Progettazione di tagger di vario genere, tipo i POS (Part-Of-Speech taggers)
- La definizione di strutture per l' elaborazione del linguaggio naturale (Natural Language Processing)
- Ricerca in generale delle relazioni tra linguaggio naturale e linguaggio formale
- traduzione automatica
- information retrieval concettuale
- discourse parsing (analisi automatica dei testi)
- Le grammatiche "Context-sensitive", le macchine di turing, gli automi a stati finiti
La Association for Computational Linguistics definisce la linguistica computazionale come: la scienza dello studio dei linguaggi da una prospettiva informatica. i linguisti computazionali si occupano di fornire modelli computazionali dei vari fenomeni linguistici.
[modifica] Voci correlate
- Padre Roberto Busa
- intelligenza artificiale
- sistemi di dialogo
- natural language processing
- traduzione automatica
- memoria di traduzione
- Computational Linguistics (periodico)
- Semantica Computationale
- Relatività Semantica