Waarom zien vertalingen van Google er zo wonderlijk, om niet te zeggen onmogelijk uit? Het lijkt meer op rijstebrij dan op normale taal. Op die vraag is geen eenvoudig antwoord te geven. Het meest juiste lijkt me aan te voeren dat vertalen niet zo eenvoudig is als het lijkt. Het vertalen van woord voor woord geeft geen vloeiende zinnen, want de opbouw en woordvolgorde van de verschillende talen is niet dezelfde. Dat is een machine nog wel bij te brengen. Verder is er een probleem met equivalentie van woorden in verschillende talen. We hebben allemaal op school geworsteld met 'Schwere Wörter' - in het Engels 'False Friends', in het Nederlands 'Valse Vrienden' - woorden die op elkaar lijken maar verschillende betekenis hebben in de vreemde taal. Als voorbeeld wordt vaak genoemd het Nederlandse 'zee' en 'meer', dat in het Duits juist verandert in 'Meer' en 'See'. De gevoelswaarde van begrippen kan ook per taal verschillen. Engels 'honest' en Frans 'honnête' bestrijken niet hetzelfde gebied; net zoals 'gesture' en 'geste'.
Dan zijn er woorden die op meer dan één wijze vertaald kunnen worden. Neem het Engelse woord 'run'. Hier zijn enkele zinnen waar dat woord in voor komt: 'money ran through his fingers', 'the river ran dry', 'the colors ran', en 'the play ran long'. Elke keer heeft een vertaling hier een ander woord voor nodig – probeer het zelf.
Je kunt de Engelse zin: 'he lost his patience' makkelijk vertalen in: 'hij verloor zijn geduld'. Mooi zo, dat heeft de machine goed gedaan. Nu hebben we: 'he lost his temper'. Met een beetje goede wil krijg je nu: 'hij verloor zijn humeur'. Erg raar. Het moet zijn: 'hij werd kwaad'. Maar wat de machine niet voorgeschoteld heeft gekregen, dat weet hij niet. En denken kan hij al helemaal niet. Neem een woord als 'depressie'; is dat psychiatrisch, economisch, atmosferisch of aardrijkskundig bedoeld? Dat hangt van de context af. Daar komt al wat intelligentie bij kijken. Een mens besluit deze zaken praktisch automatisch, zonder er veel bij na te denken. Een machine moet hier wel stevig geprogrammeerd zijn om dat allemaal na te lopen. Dan is er ook een belangrijk probleem van idiomen. En metaforen, en ironie. Wat moet een machine daarmee? En dubbelzinnigheid (ambiguity) van woorden.
Als de doeltaal van een vertaling sterk geslachtsgevoelig is, zoals het Frans, wat moet een vertaalmachine dan met een zin als: 'De soldaten begonnen op de vrouwen te schieten. Ik zag sommigen vallen.' Een professionele vertaler begrijpt zonder meer dat het de vrouwen zijn die vallen in zo'n situatie, en zal die 'sommigen' een vrouwelijk geslacht geven. De machine heeft geen benul van wie er valt; strikt taalkundig is dat niet uit de zin op te maken. Als die voorkeur, op grond van wat er in de echte wereld gebeurt, niet is geprogrammeerd, ofwel dat er een mate van Artificiële Intelligentie is meegegeven, dan doet die machine maar wat. Hèt probleem bij machinevertalingen is dat computers geen common sense overwegingen ingebouwd hebben. Common sense bestaat uit een bijna oneindig aantal factoren die wij in het leven hebben meegekregen. Deze hoeveelheid kennis valt niet te programmeren, en is daarenboven waarschijnlijk voor een groot deel onbewust.
Vertaalmachines werken het beste binnen een zeer omschreven vakgebied met veel vaste technische termen die nauw begrensd zijn, zonder te vrije verbindende tekst. Daar heb je ook weinig last van dubbelzinnigheid, metaforen, ironie of humor. Een eenvoudige gebruiksaanwijzing laat zich behoorlijk machinaal vertalen: 'Schroef A in gat B, stevig aandraaien.' (Hoewel we zo'n twintig jaar geleden nog best konden lachen om de Nederlandse vertalingen bij Japanse producten). Toch mogen we niet al te negatief denken over machinevertalingen. Een redelijk systeem is Systran. De Europese Gemeenschap in Luxemburg geeft daarmee al jaren volledig automatisch gegenereerde machinevertalingen uit, die tot veel nut van de gebruikers dienen. Voor dat doel worden 65 - 70 procent van de vertaalde zinnen correct bevonden door objectieve waarnemers. Dat is niet slecht, en een hogere score dan enig ander bestaand systeem. Let wel dat we hier ook te doen hebben met een beperkt taalgebied, waar veel herhalingen in de stukken en contracten voorkomen, met hun eigen jargon. Ook de vertalingen van Google zijn gebaseerd op Systran.
Hoe meer literair de te vertalen schriftuur is, des te minder goed kan de machine zijn werk doen. Dit wordt het meest duidelijk bij de vertaling van poëzie, waar ritme en gevoeligheden voor een machine niet te achterhalen zijn. Het gaat weer beter met rijmloos rijm. De experts op het gebied van machinevertaling, zelfs de meest enthousiaste, zien de menselijke vertaler nog niet zo gauw verdwijnen.
Er is al zo veel literatuur over dit onderwerp dat ik het nalaat om bronverwijzingen aan te geven. Sommige van de voorbeelden zijn geciteerd uit die beschikbare boeken.