Testuen prozesamendu azkarra
Wikipedia(e)tik
Artikulu hau ez dator formatu hitzarmenekin bat. Wikipedia lagun dezakezu hau egokituz. |
? |
Testu azkarren prozesamendua interes printzipaleneko gauza bat da hizkuntza prozesamenduaren alorrean. Izan ere, teknologia berrien ulerkuntzan oinarritzen da eta baita dokumentuen analisian ere, diskurtso moduan eta tinta elektronikoan beraz nolabait esateko. Orain hizkuntza naturala prozesatzeko, makinen funtzionamendua ikasteko metodoetan dabiltza, kontutan harturik baita ere Question Answering edota galde-erantzun sistemak eta gramatika zuzentzaileak. Orain, asiar hizkuntza prozesamenduan informazioaren berreskurapenean eta galde-erantzun sistemetan dute beraien begirada jarria hain zuzen. Geroko proiektuei begira garrantzia handikoa izango da hizkuntza txinatarra. Azken batean, gerora begira, alor honetan adituak direnen nahia ordenadore sistema aurreratuago eta azkarragoen garapena ematea da makinen gaineko ikasketako esplotazioaren eta ikuspegi informatikoaren gainean batez ere.
Iturria:
http://www.asiainfoservice.com/products/lncs/lncs2002/2276.htm
Prozesamendu sistema tradizonalak ez dira gai fakturak ezagutzeko, erregela espezifiko baten barnean dauden formak eta bestelako dokumentuak,-hau da, soilikprozesa ditzakete dokumentu estatikoetako datuak zentzuek esparru txikietan soilik dituzte informazioak. Emaitza moduan, galdutako dokumentuen datuak sisteman gordeak izan behar dira. Informazio elektronikoaren popularitatearen hazkuntarekin eta gaur egungo dokumentuen formatoen barietatearen hazkuntzarekin, suposagarri egiten da, korporazioak denbora eta dirua dokumentuen prozesamenduan inbertitzeko itxaroan egon daitezkeela.
Emaitza, neural red edo martxari buruzko ikasketa deritzanean oinarritzen da, eta beronekin edozein dokumetu formatu birtualmente uler eta ezagutu dezakegu. Testu inteligenteen prozesamenduak, jakina den moduan, korporazioak onartzen ditu kostu generalak eta datu garrantzitsuen prozesaketan emadako denbora gutxituz. Dokumenduen software prozesamendua erosotasun bihurtu da eta zoritxarrez produktu ugarik arreta eta funtzionalitatea konpartituta. Honek desberdintasun handi bat sortzen du hurrengoekin alderatuz. Egoera desberdinen prozesamendua lehiatzen direlako. Dokumentuen prozesaketaren munduan erdi automatizatuaren ulermena eta datuen hustuketarena da hurrengo pausoa, testu baten prozesaketa inteligenterako soluziorako oinarria. Gaitasun hau egungo teknologietan eta kontzeptu jarioan datza hurrengo honek prozesamendua erakusten duen moduan:
-Dokumentuen sailkapena
-Dokumentu zentralizazioa
-Dokumentu dinamikoentzat oinarria
-Errendimendu handia
Dokumentu baten prozesaketa inteligentearen soluzioa ulertze bidean ondorengo gaitasun bakoitza ulertzea ezinbestekoa da.
- Dokumentuen sailkapena Identifikazio eta banaketaren ohiko metodoak aurretik identifikazio jakinetan eta ezagututako propietateetan (lerroak, laukiak, logoak, izenburuak...) oinarritzen dira. Metodo hauek prozesamendu sistema egokia egiteko bide bat dira, eta hauetako multzo txiki bat da negoziotik jasoa. Enpresa askok ehundaka eta milaka dokumentu desberdin jasotzen dituzte. Ondorioz, dokumentu guzti hauen sailkapena nolakotasunaren arabera eta hauen eginbeharraren arabera sailkatuko dituen zerbaiten beharrizana soluzio bat topatu nahi badugu behintzt. Honek konpatibilitatea zilegiztatzen du id formatatik at generikoki dokumentu gehiago onartuz, korrespondentzia handiagoa esate baterako, faktura eta erosketaren ordenarekin gertatzen den bezala. Zenbait aplikazioarako eskuz gehitu eta forma aldatzearen metodoak lan-basean oinarritzen den liburutegia ez da oso erabilgarria, ez bada guztiz erabilezina.
- Dokumentuen zentralizazioa Korporatiben barneraketa formato desberdinetan zatikatzen da: paperezko korreoak, faxak, paperezko dokumentu eskaneatuak, emailuak, web formak, ahots korreoa...Datu bakoitzarentzat sistema banakako bat instalatzea eta mantentzea baino hobea da sistema erraz batzuk edo sistema gutxi izatea.
Dokumentuen direkzio sistema ideala gai izan behar da adatu formatu oro onartzeko, eta aldi berean hauek dato modu bakarrean bihurtzeko. Bada, prozesamentuko lehen urratsak ezberdin izan daitezkeen bitartean produkzio datu guztiak datubase berean bilduak izan daitezke. Esaterako, paperezko korreoa gainbegiratua izan behar da eta fax bidezko transmiziokoetan mezua fax bidez jasoa izan behar da, hurrengo pausoa aldiz, irudizko preprozesamendua bietarako da amankomuna. Prozesamenduaren eszenarekin jarraituz, irudi data testu data bihurtuaa izaten da ezagupen autonimikoaren orduan. Teknologi honetako kalitatezko produkzioak oro hobetzen dabiltzan bitartean, beharrezko gertatzen dira datuen egiaztapena eta garbiketa.Honek askotan inplikatzen du balidazio automatikoaren kontrola eta erredaktatuaren berifikazioa. Formato elektronikoan jasoak diren mezuak ere, e-mailak eta web formak esaterako ziurtatuak eta garbituak izan behar dira. Eta noski, iturri ezberdinetako datuak almazenatuak edo artxibatuak izango dira prozesamendu adizionalean.
- Dokumentu dinamikoen oinarria Dokumentu formatoak gero eta frekuentzia handiagoz dabiltza ladatzen, gero eta zailago gertatzen da, egoera predeterminatuetan artikulu modu estandar bat aurkitzea. Hau gertatzen da kritikagarri delako irtenbide inteligente bat aurkitzea dokumentu dinamikoen oinarri moduan.
Fakturak erabiliz adibide bezala, konpainia batek hainbeste faktura jaso ditzazke, bakoitza formatu ezberdinean, baina guztiek dute prozesamendurako beharrezko den informazioa. Dokumentuen prozeamendu metodo tradizionala, faktura bakoitzeko plantila batezartzea ez da irtenbide ingurugiro oso dinamiko honen barnean. ordea, erantzuna didtema neutrala erabiltzen duen lan sarea da.
- Goi mailako errealizazioa Ezaguna da dokumentu tradizionalen prozesamenduaren errealizazioa:begiztatutako dokumentuak, pertsonaia ezagunak, oinarrizko dokumentu mota ezberdinak, dokumentuen beharrezko ezaugarriak, hala nola kolore marginalak. Parametro hauek bezeroari sistemak konparatu eta ebaluatzen laguntzen dio. Baina askotan, sistemen errealizazioaren hazkundeak ferreteria esanahia du, edo antzeko lantokiena. Dokumentu azkarren prozesamenduak merkatuari bestelako kapazitate batzuk ekarri dizkio. Oinarrizko dokumentu motak, lehenago esan bezala, ehundaka eta mikala kontatzen dira, eta ez dozenaka. Dokumentu tipo batzuk, zeintzuk ezin izan daitezkean automatikoki prozesatuak, gaur egun sistemaren bitartez bidaliak izan daitezke. Pantailan sartutako datuak orain zuzenean adaptatu daitezke dokumetu motaren arabera. Sistemaren osagaiak saltzaile ezberdinetakoak badira ere, egun konpainia berdinetatik baletoz bezala bateratuta daude.
Firstt Form-ek loturak egin eta apurka-apurka erraz integratu du egungo enpresa giroan oinarrizazioetako arduren konpetentzia eta hazkundearen errealizazio maila. Banc Tec-ek soluzioak egokitasunez sailkatuko ditu dokumentu anitzak erakusgarri den talde txikienaren lagin txikiena erakutsita. Teknika berri honek oso dokumentu berdinak daudenena ere ez du arazorik izaten liburutegian homologazio berdin-berdina ez dutelako. Honek prozesamendurako negozio bat ahalbidetzen du, sistema garrantzitsurik gabe. Argi dagoenez dokumentuen onartze maila erabiltzen duenak ald adezake. Alde batetik duen marku erabat zehatzak ez du dokumentu ezgun berririk onartuko (iD sistema tradizionalak bezela). Bestalde oso marku aurreratuak jasoko dituen dokumentu guztiak jasoko ditu. eFirst Formek soluzio zentralizatu baten onurak eskeiniko ditu, honek egungo datuen sarrera beharrezko izango duelarik. Teknologien lan-sarea "Banc-Tec"ek desplegatu dezan, azken honek gainontzekoei sarritan saihestutako datuen sarrera automatikoa dokumentu ezagunen kopuru handien prozesamendu egitea baimentzen die. Honek faktura erosketa ordena eta aberastasun dukumentu legal eta errealak barnean hartzen ditu. Banc tec-en "eFirstForms" irtenbideak sistemarentzat ezagun ez diren dokumentuak prozesatzea baimentzen du. "eFirst Forma" fakturek datu mota berbera izateaz fidatu behar dute eta honek bilatu nahi duena zer den ulertuko du (adib, korronte-zenbakia, artikulu lerroak ordenatu.... Dokumentuen lagin talde bat erabilita "eFirst formek zein datu bilatu, nola ezagutu eta interpretatu jakingo du. Horrek honakoa esan nahi du: gai izango garela lagin taldeko parte izan zirenak prozesatzeko, baina lehenago ikusi gabekoak dokumentuen sailkapen berean egongo dira. Honek datu automatizatuen sarrera operazioaren egia erakusten du, benetan zer ari den den prozesatzen jakin behar delarik e Firts Formekin, operadioreak faktureratik beharrezko daatuak ateratzeko gai izango dira egiturari begiratu gabe, faktura gehieneek oinarri bera jarraitzen dutelako.
Iturria:
http://www.banctec.co.uk/whitepapers/formstechpaper.pdf+intelligent+text+processing&hl=es
Testuen prozesaketa azkarra hizkuntza neutrala hurbiltzeaz arduratzen da. Historikoki, Nlp ikerketa testualekin gauza dotoreak egitea arazoa izan da. Uste da, testuen prozesaketa azkarra egiteko kontuan hartu behar direla mikrosoft word bezalakobaliabide totoreagoak. Lan gehiena etxe mota automatikoen kontrolean dago, nahiz eta azkenaldian jendea informazio hustuketa eta teknologietara zaletu den.
Iturria:
http://www.ics.mq.edu.au/~rdale/research/
zer da Itp:Itp softwarew karpetan produktu osagarrien errendimendua onartzen da eta soluzioaren garapenaren bitartez prozesamenduaren soluzioa bilatzen da informazioaren gehiketarako. Ala software Itp produktuak: testuen prozesaketa azkarraren softwarea. Itp-ak hauen produkzioaren datuen aplikazioa sortzen du. Dokumentuen eraketa eta modelazioa: Ereduzko dokumentuen sorrerarako tea datubaseen definiziorako da. Posta prozesadoreak: Itp-ak aukera maila ezberdinak ditu prozesatu osteko dokumentuekin, eta hauetako bat da posta bidezkoa. Aplikazio integrazioa:Itp-ak dokumentuen produkzioa integratzeko aukerak dauzka.
Iturria:
http://www.aia-itp.co.uk/link.php?href=/home.html
Egileak:
Amaia Jauregizar:http://littera.deusto.es/alumni/c0304/3amjaure/weblog/
Iban Auzokoa:http://littera.deusto.es/alumni/c0304/1libauzok/weblog/