Maskinoversættelse (MT) systemer er nu allestedsnærværende. Dette allestedsnærværende skyldes en kombination af øget behovet for oversættelse i dagens globale markedsplads, og en eksponentiel vækst i computerkraft, der har gjort sådanne systemer levedygtige.
Og under de rette omstændigheder, er MT systemer et kraftfuldt værktøj. De tilbyder lav kvalitet oversættelser i situationer, hvor lav kvalitet oversættelse er bedre end ingen oversættelse på alle, eller hvor en grov oversættelse af et stort dokument leveres i sekunder eller minutter, er mere nyttigt end en god oversættelse leveres i tre uger.
Desværre, på trods af udbredt adgang til MT, er det klart, at formålet og begrænsninger af sådanne systemer ofte er misforstået, og deres evne bredt overvurderet. I denne artikel vil jeg give en kort oversigt over, hvordan MT systemer fungerer og dermed hvordan de kan udnyttes optimalt. Derefter vil jeg fremlægge en række oplysninger om, hvordan Internet-baserede MT bliver brugt lige nu, og viser, at der er en kløft mellem de tilsigtede og reelle anvendelse af sådanne systemer, og at brugerne skal stadig opdrage på, hvordan du bruger MT systemer effektivt .
Sådan virker maskinoversættelse
Du har måske forventet, at et computer oversættelse program ville bruge grammatiske regler sprog pågældende kombinere dem med en form for in-memory “ordbog” for at producere den resulterende oversættelse. Og ja, det er væsentligt, hvordan visse tidligere systemer fungerede. Men de fleste moderne MT systemer faktisk tage en statistisk metode, der er temmelig “sprogligt blind”. Væsentlige, er systemet uddannet på et korpus af eksempel oversættelser. Resultatet er en statistisk model, der omfatter oplysninger såsom:
- “Når ordene (a, b, c) forekomme i træk i en sætning, der er en X% chance for, at ordene (d, e, f) vil ske i træk i oversættelsen” (NB der ikke har at være den samme antal ord i hvert par);
- “Får to på hinanden følgende ord (a, b) på målsproget, hvis ord (a) ender i-X, der er en X% chance for, at ordet (b) vil ende i-Y”.
Da en enorm krop af sådanne indlæg, kan systemet så oversætte en sætning ved at overveje forskellige kandidat oversættelser – der af snor ord sammen næsten tilfældigt (i virkeligheden, via nogle ‘naive valg “-proces) – og vælge de statistisk mest sandsynlige option.
På retsmødet dette høje niveau beskrivelse af, hvordan MT værker, de fleste mennesker er overrasket over, at en sådan “sprogligt blind” tilgang virker på alle. Hvad er endnu mere overraskende er, at det typisk fungerer bedre end regelbaserede systemer. Dette skyldes til dels at påberåbe sig grammatisk analyse selv indfører fejl i ligning (automatiseret analyse ikke er helt nøjagtig, og mennesker er ikke altid enige om, hvordan man analyserer en sætning). Og uddannelse en ordning for “bare tekst” giver dig mulighed for at basere et system på langt flere data end det ellers ville være muligt: corpora af grammatisk analyseret teksterne er små og få og langt imellem, sider “bare tekst” er til rådighed i deres billioner.
Men hvad denne tilgang betyder, at kvaliteten af oversættelserne er meget afhængig af hvor godt elementer i kildeteksten er repræsenteret i de data, der oprindeligt blev brugt til at træne systemet. Hvis du ved et uheld type han vil tilbage eller vous avez rekvirenten (i stedet for han vil vende tilbage eller vous avez demande), vil systemet blive hæmmet af, at sekvenser som vil tilbage er usandsynligt, at der er sket mange gange i uddannelsen corpus (eller værre, har måske fundet sted med en helt anden betydning, som i de havde brug for hans vil tilbage til advokat). Og da systemet er lidt begrebet grammatik (til arbejde, som for eksempel, at returneret er en form for tilbagevenden, og “infinitiv sandsynligvis efter at han vil”), er det i realiteten har meget lidt at gå videre.
Ligeledes kan du bede systemet til at oversætte en sætning, som er helt grammatisk og almindelig i daglig brug, men som indeholder funktioner, der sker for ikke at have været almindelig i uddannelsen corpus. MT-systemer er typisk uddannet på de typer af tekster, som menneskelige oversættelser er let tilgængelige, såsom teknisk eller forretningsdokumenter, eller afskrifter af møderne i flersprogede parlamenter og konferencer. Dette giver MT-systemer en naturlig bias i retning af visse typer af formel eller teknisk tekst. Og selv om hverdagens ordforråd er stadig omfattet af den uddannelse, corpus, grammatik daglig tale (såsom at bruge Tú stedet for usted på spansk, eller ved hjælp nutid i stedet for fremtiden spændte på forskellige sprog) kan ikke.
MT-systemer i praksis
Undersøgelser og udviklere af edb-oversættelse systemer har altid været klar over, at en af de største farer er offentlig misforståelse af deres formål og begrænsninger. Somers (2003) [1], observere brugen af MT på nettet og i chatrooms, kommentarer, at: “Denne øgede synlighed af MT har haft en række side virkninger. [...] Der er helt sikkert et behov for at uddanne offentligheden om den lave kvalitet af rå MT, og vigtigere er, hvorfor kvaliteten er så lav. ” Observation MT i brug i 2009, er der desværre meget, der tyder, at brugernes bevidsthed om disse spørgsmål er blevet forbedret.
Som en illustration, vil jeg præsentere et lille udsnit af data fra en spansk-engelsk MT service, at jeg stiller på Español-Inglés web site. Den service virker ved at tage brugerens input, anvender nogle “oprydning” processer (såsom at rette nogle fælles ortografiske fejl og afkodning fælles forekomster af “SMS-tale”), og derefter leder efter oversættelser i (a) en bank af eksempler fra websteds spansk-engelsk ordbog, og (b) en MT motor. I øjeblikket er Google Oversæt anvendes til MT motoren, selv om en skik, kan motoren bruges i fremtiden. De tal, jeg til stede her er fra en analyse af 549 spansk-engelsk søgninger forelagt til systemet fra maskinerne i Mexico [2] – med andre ord, vi antager, at de fleste brugere oversætte fra deres modersmål.
Først, hvad er folk bruger MT system til? For hver forespørgsel, forsøgte jeg en “bedste gæt” på brugerens formål at oversætte forespørgslen. I mange tilfælde er formålet ganske indlysende, i nogle få tilfælde er der klart tvetydighed. Med dette forbehold, dommer jeg, at i ca 88% af tilfældene, den påtænkte anvendelse er forholdsvis klare, og kategorisere disse anvendelser som følger:
Ser op et enkelt ord eller udtryk: 38%
Omsætning en formel tekst: 23%
Internet chat session: 18%
Hjemmearbejde: 9%
En overraskende (hvis ikke alarmerende!) Observation er, at så stor en del af sagerne er brugere, der anvender oversætter til at se op et enkelt ord eller udtryk. Faktisk. 30% af søgninger bestod af et enkelt ord Konstateringen er lidt overraskende i betragtning af at den pågældende lokalitet har også en spansk-engelsk ordbog, og foreslår, at brugerne forveksler formålet med ordbøger og oversættere. Selv om det ikke er repræsenteret i rå tal, der var klart nogle tilfælde af på hinanden følgende søgninger, hvor det fremgik, at en bruger bevidst var opsplitning af en sætning eller et udtryk, som ville have sandsynligvis været bedre oversættes, hvis venstre sammen. Måske som en konsekvens af studerende over-boring på ordbog skik, vi ser for eksempel en forespørgsel til cuarto para (“kvartal”) umiddelbart efter en forespørgsel til et nummer. Der er et klart behov for at uddanne studerende og brugere generelt på forskellen mellem den elektroniske ordbog, og maskinen oversætter [3]: i særdeleshed, at en ordbog vil guide brugeren til at vælge den rigtige oversættelse tænker på sammenhængen, men kræver en enkelt ord eller enkelt-sætning opslag, mens en oversætter generelt fungerer bedst på hele sætninger og gives et enkelt ord eller udtryk, vil simpelthen rapportere statistisk mest almindelige oversættelse.
Jeg anslår, at i mindre end en fjerdedel af tilfældene, er brugere, der anvender MT system til “uddannet-for” formål at oversætte eller gisting en formel tekst (og er på vej ind en hel sætning, eller i det mindste delvis punktum i stedet for en isoleret navneord sætning). Selvfølgelig er det umuligt at vide, om nogen af disse oversættelser så var beregnet til offentliggørelse uden yderligere bevis, som absolut ikke er formålet med systemet.
Anvendelsen til at oversætte formelle tekster er nu næsten rivaled ved brug til at oversætte uformelle on-line chat-sessioner – en sammenhæng, som MT-systemer er typisk ikke uddannet. On-line chat sammenhænge stiller særlige problemer for MT systemer, da funktioner som ikke-standardiserede stavning, manglende tegnsætning og tilstedeværelse af hverdagssprog ikke findes i andre skriftlige sammenhænge er almindelige. For chat-sessioner, der skal oversættes effektivt vil formentlig kræve en dedikeret system uddannet på et mere passende (og muligvis specialbyggede) corpus.
Det er ikke så overraskende, at de studerende bruger MT systemer til at gøre deres hjemmearbejde. Men det er interessant at bemærke, i hvilket omfang og hvordan. Faktisk for hjemmearbejde brug incudes en blanding af “fair use” (forståelse en øvelse) med et forsøg på at “få computeren til at gøre deres hjemmearbejde” (med forudsigeligt frygtelige resultater i nogle tilfælde). Forespørgsler, der kategoriseres som hjemmearbejde omfatter domme, der er tydeligt instrukser til øvelser, plus visse sætninger forklarer trivielle almindeligheder, som ville være ualmindeligt i en tekst eller samtale, men som er typiske i begyndere ‘hjemmearbejde øvelser.
Uanset brug, et problem for systembrugere og designere både er frekvensen af fejl i kildeteksten, som kan besværliggøre oversættelsen. Faktisk indeholdt over 40% af søgninger sådanne fejl, med nogle søgninger, der indeholder flere. De mest almindelige fejl var følgende (forespørgsler til enkelte ord og udtryk blev udelukket i beregningen af disse tal):
Manglende accenter: 14% af søgninger
Manglende tegnsætning: 13%
Andre ortografiske fejl: 8%
Grammatisk ufuldstændig sætning: 8%
I betragtning af, at der i de fleste tilfælde, brugere, hvis oversætte fra deres modersmål, brugere synes at undervurdere betydningen af at bruge standard ortografi at give den bedste chance for en god oversættelse. Mere subtilt, behøver brugerne ikke altid forstår, at oversættelsen af et ord kan afhænge af en anden, og at oversætterens job er mere vanskelig, hvis grammatiske bestanddele er ufuldstændige, således at forespørgsler såsom hoy es día de er ikke ualmindelige. Sådanne søgninger hæmme oversættelse, fordi chancen for en straf i den uddannelse corpus med, siger en “dinglende” forholdsord som dette vil være slank.
Erfaringer …?
På nuværende tidspunkt er der stadig et misforhold mellem udøvelsen af MT-systemer og brugernes forventninger. Jeg kan se ansvaret for lukning denne forskel som ligger i hænderne både af udviklere og af brugere og undervisere. Brugerne skal tænke mere om at gøre deres kilde Sætningerne “MT-venlig”, og lære at vurdere produktionen af MT-systemer. Sprogkurser nødt til at løse disse spørgsmål: at lære at bruge computer oversættelsesværktøjer effektivt skal ses som en relevant del af at lære at bruge et sprog. Og udviklere, inklusive mig selv, nødt til at tænke over, hvordan vi kan gøre de værktøjer, vi tilbyder som passer bedre til sprog brugernes behov.
Noter
[1] Somers (2003), “Machine Translation: Den seneste udvikling” i The Oxford Handbook of Datalingvistik, OUP.
[2] Denne ulige antal er simpelthen fordi søgninger matcher udvælgelseskriterierne blev erobret med tilfældige sandsynlighed inden for en fastsat tidsramme. Det skal bemærkes, at ordningen for udlede en maskine land fra sin IP-adresse ikke er helt præcis.
[3] Hvis brugeren indtaster et enkelt ord i det pågældende system, vises en meddelelse under oversættelsen tyder på, at brugeren ville få et bedre resultat ved at bruge webstedets ordbog.