Itzulpen automatikoaren azala eta erraiak: deep learning-a

Karlos del Olmo

Gero eta jende gehiagok jotzen du aspaldi honetan itzulpen automatikora, batez ere sarean doan (?: espazio birtualean denak badu kostu bat, erabiltzaileak nahitaez pagatu beharrekoa, konturatzen ez bada ere) topa daitezkeen tresnen bitartez. Itzultzaile profesionalek badakigu emaitzak ez direla oso erabilgarriak izaten (oraindik) eta edizio lan handi eta neketsua behar izaten dutela (hasieratik itzultzea baino neke handiagoa gehienetan). Eta zergatik diogu “oraindinokarren”? Abiadura esponentzialean doalako garapena.

Horrelako robot batzuen erraietan datzan teknologiaren oinarria zelakoa den jakiteak lagundu diezaguke itzulpen ekintzan datzan adimen mekanismoa hobeto aditzen. Dirudienez, gainera, 2014. urtea itzultzaile automatikorik bikainena lortzeko lasterketa jomugaren batera ailegatuko omen da, eta itzultzaileak, apurka, zuzentzaile edo estilo jorratzaile bihurtuz joango gara: erne!, interpreteen lana ere heldu daiteke urte batzuen bueltan murriztera, azken xedea pertsonen ahozko berbaldia aldi berean beste hizkuntza batzuetara ahoz ere ematea, ahoak bota ahala —eta 80 bat hizkuntza dute, egun, laneko berbetatzat, hortaz…—.

Estatistika eta ekonomia dira, besteak beste, horrelako makinen bihotza eta odola. Adimen artifizial ere esan diezaiokegu. Eta zergatik esan dugu hizkuntzari eta itzultzeko ekintzari bestela begiratzera behartzen gaituztela? Hiztegiak eta gramatikak, haragizkoen tresna nagusiak, ez darabiltzatelako itzultzaile elektronikoek.

Internet arakatzeko bilatzailerik ezagunenetako batek linean eskaintzen duen itzultzaile automatikoak, egunean, mila milioi itzulpen ekintza automatiko gauzatzen ditu (ahaztu gabe haragizko itzultzaileek itzulpen memorietarako eskaintzen diguten lineako tresna erabiltzean ematen diegun bazka): milioi bat liburu adina, EGUNEKO!

Gaur arte, oraindik ez dute lortu ordenagailuak hizkuntza natural bat bera ere ikasterik, zer esanik ez, askozaz ere gutxiago 80, ahalegin titanikoa behar luke.

Oinarria linguistikoa barik estatistikoa bada, zelan dihardu?: “dena delako hizkuntzako kate / hitz hau honela itzultzen da beste xede hizkuntza horretara beste berba edo segida horretatik hurbil egonez gero”. Gure burmuinak ere antzera dihardu? Ezetz? Zer egiten du itzultzaile on baten barruko ordenagailuak (sen deritzonak )? Estatistika erabili, helburuaren, testuinguruaren eta lortu nahi duen efektu estetikoaren arabera aukeratzeko.

Baina Interneteko zerbitzu-emaile horiek datu-base ikaragarri handiak eta haiek prozesatzeko makinak behar dituzte, hain suertez, erabiltzaileei esker egunik egun lortzen dituzten gauzak (doako corpusak eta publizitate bidezko dirutzez erositako makinak eta ordainduriko adituak).

Kalitatea hobetzeko bide bakarra, gero eta feedback handiagoa lortzea, baina pertsonei tresnak doan eskainita, erraz lortu ohi dute.

Nondik datoz, dena dela, akats horietako batzuk? Hizkuntza batetik bestera zuzen eta artez itzuli beharrean, ingelesa zubi hizkuntzatzat erabilita. Horren zioa ez da, dena dela, anglosaxoien egozentrismoa edo inperialismoa (hori ere bai?) ekonomia baino: zenbait industriatan edo aireportutan bezala, errazago gertatzen da salgai banaketa edo hegaldiak izar baten antzera antolatzea erdigune baten inguruan eta erdialde hartatik gero beste edonora bidaltzea. Hizkuntzekin, antzera dihardute, hau da spoke-hub edo hub and spoke bat darabilte: edozein berbetatik ingelesera itzuli eta, ostean, ingelesetik beste edozein mintzotara. Gainera, estatistikoki, beti izango zaie errazago horrelako tresnei ingelesaren eta beste edozein hizkuntzaren arteko testu itzuliak topatzea beste ezein hizkuntz bikoteren artean baino. Funtzionamendu ekonomiko horren zorra: akats tasa handiagoa gertatzea hizkuntz bikoteka jardunik baino. Esaterako: ingelesa zubi hizkuntza baliatuz, vous êtes formak ia beti izango du ordain bakarra, ingelesean tasun batzuk galdutakoan: “(zu) zara”

Eta zer da guztiaren oinarrian datzan dena delako deep learning hori? Algoritmo multzo bat, pertsonen garuna imitatzeko formula logiko eta matematikoen bilduma bat (besteak beste, egun zenbait telefono mugikorren ahozko morroiek darabilten sistema). Ikaskuntza sakon horri neurona sare sakon ere deritzote, bestela esanda, burmuinak hitzak edo aurpegiak ezagutzen saiatzen denetako ekina simulatzen du. Neuronen antzera, geruzak eta geruzak antolatzen dituzte makinan. Duela gutxi arte, geruza kopuru txikia erabiltzen zuten ingeniariek; egun, aldiz, gero eta gehiago (azken buruan, erabiltzaileen agindu zenbait ulertzeraino heldu dira mugikorrak).

Guztiarekin ere, neurona mota guztiak ez dituzte antzeratzen, ahotsa, ikusmena eta testuak besterik ez dutelako ulertu gura; azken helburua erabiltzaileei esker publizitatearen bitartezko irabaziak emendatzea da merkataritzako xedea, ez pertsonek eta kulturek elkar ulertzea.

Hizketak ezagutzeko orduan, beste programatzaile batzuk semantikaren alorrera hurbildu dira; gauza jakina baita sintaxi aldetik perpaus bat ondo eratuta egon arren, semantika aldetik esangurarik ez izatea gerta daitekeela. Hala, informatikari eta ingeniariekin batera, softwareari hitzen esangura irakasten ahalegin ari dira, “garun semantiko” halako bat sortzeko, makinak erabiltzailearen esana eta idatzia uler ditzan, ikaskuntza automatiko halako bat abiarazten duelako ikaskuntza sakoneko sistema horrek.

Dena dela, neurona sareak alorretako bat besterik ez da, bestelako ikasbide batzuk ere dituztelako makinek: erabaki zuhaitzak, elkarketa arauak, kasuen araberako arrazoitzea, azalpenean oinarrituriko ikaskuntza… Halere, ikaskuntza sakona da teknologi enpresa erraldoien kuttunena, bakarra ez bada ere, galdera-erantzunen metodoa darabilelako beste enpresa handi batek gaixotasunak makina bidez diagnostikatzeko, neurona geruzen teknika erabiltzeke.

Gaurko sistema horietako batzuek makinaren neuronak entrenatu dituzte 20 orduan 500 milioi hitz ikasi eta itzulpen automatikoan erabiltzeko. Semantikan oinarriturikoek oso emaitza onak lortu dituzte makinak dakien hiztegiari tasun semantikoak maila sakonean txertatuta, besteak beste, ingelesa eta alemanaren artean nahiz frantsesaren eta ingelesaren artean.

Azkenean, makinek halako maila bat lortzen dutenean (eta ez du horrek oso luze joko), itzulpengintza eta interpretazioa izango dira, ezinbestean, teknologia berrien albo kalteetako batzuk —egun, teknologia horien onuradunak diren arren—: makinak itzulitakoa pertsonaren batek zuzenduko du, baina zuzenketa berori erabiliko du makinak berriro akats hori ez errepikatzen ikasteko; hortaz, gero eta haragizko zuzentzaile gutxiago beharko. Ba ote irudikatzerik Nazio Batuen Erakundea edo Europako Legebiltzarra interpretazio kabinarik gabe edo itzultzaile gehienak (guztiak?) makinen laguntzaile bihurtuta?

Gehiago jakin gura? http://research.microsoft.com/apps/pubs/?id=209355