Bide barrijak (eta III)

Gotzon Egia Goienetxea

Corpus elebidun edo eleaniztunen garapena, horra hizkuntza teknologien beste emaitza ikusgarri bat. Funtsean, itzultzaileek egindako lanari jakintza etekin bat ateratzeko tresnak dira corpus elebidun edo eleaniztunak: corpus paraleloak dira, bi zutabe edo gehiagotan antolatuak (hizkuntza kopuruen arabera), non testu multzo (edo segmentu) bakoitza aldameneko(ar)en itzulpena baita.

Hurbileko adibide batez argiago ikusiko duzue: Gipuzkoako Foru Aldundiak landutako itzulpenen datu basea. Izatez TMX formatu estandarra duten itzulpen memoriak (es<>eu), corpus lerrokatu edo paralelo baten formatuaz erakusten dira. Bilaketak egin daitezke, galdetutako terminoak jatorrizko dokumentuetan kokatuak ikus daitezke, eta —itzultzailearen ikuspegitik, erabilgarriena— itzulpen memoriak sortu eta norberaren ordenagailura esportatu daitezke. Kontuan izateko eragozpen bat du, dena dela: jatorrizko segmentuen datu pribatuak ezkutatuta daude, benetako datuen ordez  beti letra edo zenbaki berak ipinita.

Nazioarteko erakundeei lotuta sortu izan dira —ulergarria da— corpus eleaniztunak. Hiru adibide, ezagunen artean:

  • Vienna INternet Terminology And Reference System (VINTARS): Nazio Batuen termino, izenburu eta siglen itzulpenak gorde eta kudeatzeko on-line aplikazio bat da. Kontsultaren interfazea argiegia ez bada ere, erakundearen sei hizkuntza ofizialetan (en, fr, es, ru, cn, ar) eskaintzen ditu emaitzak.
  • JRC-Acquis Communautaire: Europako Batasunaren lege multzo osoaren corpusa da. Ez du on-line kontsultatzeko aukerarik ematen, baina corpusa osorik eskuratu daiteke, hizkuntza ofizial bakoitzaren arabera, edo hizkuntza horien konbinaketa guztien corpus elebidun paraleloak eskuratu daitezke.
  • Europako Parlamentuaren aktak: Acquis Communautaire-ren tankeran, corpus elebidun paraleloak eskura daitezke, nahiz ez dauden hizkuntza konbinazio guztiak.

Corpus elebidunak sortzeko beste begiratu bat da, norberaren baratzeko datuak eskaini ordez, testuak Internetetik ateratzea. Izan ere, sarean testu elebidun edo eleaniztun asko dago, profesionalek itzuliak. Testu masa erraldoi horiek eskuratu, lerrokatu (hizkuntza bakoitzeko segmentu baliokideak parez pare jarri) eta, teknologia eraginkorrak erabiliz, on-line bilatu eta ustiatzeko aukerak garabide indartsu eta azkarra ezagutzen ari dira. Open source munduan, saio eder bat sortu dute, OPUS… the open parallel corpus izenaz. Suediako unibertsitate baten laguntzaz, eta kode irekiko webguneen soiltasun erdi hippie batez, corpus multzo handi baten gainean bilaketak egiteko eta datuak eskuratzeko aukera asko eskaintzen ditu. Corpus ikaragarri batez ez izan arren, euskara ere eskaintzen du aukeren artean.

Testuak saretik eskuratzen ditu, baita ere, Linguee bilatzaileak, baina bilaketarako hiztegi indartsu batekin konbinatuta eta, batez ere, teknologia oso modu eraginkorrean erabilita. Bilatzaile itxura erabatekoa du, interfaze soil eta garbi batez. Jatorriz Alemanian sortua zenez, alemanetik abiatu zen, baina gaur egun ingelesa, frantsesa, gaztelania, eta portugesa eskaintzen ditu hizkuntza konbinazioetan. Hazkunde azkarra izaten ari da, 100 milioi inguru itzulpen unitate jasotzen baititu dagoenekoz, webgune profesionaletatik, EBren lege iturrietatik eta patenteetatik hartuak.

Amaitzeko, esparru profesionalez kanpo sortutako bitxikeria bat: Sopelako parroko Jose Antonio Pagolak homilien corpus bat eskaintzen du bere webgunean. Testuak bata bestearen atzetik ageri dira, soil, lerrokatu gabe, baina batzuk txineraz ere bai!

Utzi iruzkina