Download PDF
ads:
Gabriela Castelo Branco Ribeiro
Avaliação de tradução automática no mercado de
localização de software: um estudo de caso
Dissertação de Mestrado
Dissertação apresentada como requisito parcial para
obtenção do grau de Mestre pelo programa de Pós-
Graduação em Letras do Departamento de Letras do
Centro de Teologia e Ciências Humanas da PUC-Rio.
Orientadora: Profa. Maria Carmelita Padua Dias
Rio de Janeiro
Abril de 2006
PUC-Rio - Certificação Digital Nº 0410515/CA
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
Gabriela Castelo Branco Ribeiro
Avaliação de tradução automática no mercado de
localização de software: um estudo de caso
Dissertação apresentada como requisito parcial para obtenção
do grau de Mestre pelo programa de Pós-Graduação em Letras
do Departamento de Letras do Centro de Teologia e Ciências
Humanas da PUC-Rio. Aprovada pela Comissão Examinadora
abaixo assinada.
_______________________________________________
Profa. Maria Carmelita Padua Dias
Orientadora
Departamento de Letras – PUC-Rio
____________________________________________________
Profa. Marcia do Amaral Peixoto Martins
Departamento de Letras – PUC-Rio
_____________________________________________________
Profa. Laura Sánchez García
Setor de Ciências Exatas – UFPR
_____________________________________________________
Prof. Paulo Fernando Carneiro de Andrade
Coordenador Setorial do Centro de Teologia
e Ciências Humanas – PUC-Rio
Rio de Janeiro, ______ de _______________ de _____
PUC-Rio - Certificação Digital Nº 0410515/CA
ads:
Todos os direitos reservados. É proibida a reprodução total ou
parcial do trabalho sem autorização da universidade, da autora e da
orientadora.
Gabriela Castelo Branco Ribeiro
Graduou-se em tradução em 1998 na PUC-Rio. Desde então, atua
como tradutora e revisora especializada em textos técnicos e
comerciais, principalmente das áreas de localização e
telecomunicações. É professora do módulo de tradução de
informática do curso Formação de
Tradutores da PUC-Rio.
Ficha Catalográfica
CDD: 400
Ribeiro, Gabriela Castelo Branco
Avaliação de tradução automática no mercado de
localização de software: um estudo de caso / Gabriela Castelo
Branco Ribeiro; orientadora: Maria Carmelita Padua Dias. –
Rio de Janeiro: PUC, Departamento de Letras, 2006.
128 f. ; 30 cm
Dissertação (mestrado) Pontifícia Universidade
Católica do Rio de Janeiro, Departamento de Letras.
Inclui referências bibliográficas.
1. Letras Teses. 2. Tradução automática. 3.
Avaliação. 4. Localização de software. 5. Manual do usuário. 6.
Interface com o usuário. I. Dias, Maria Carmelita Padua. II.
Pontifícia Universidade Católica do Rio de Janeiro.
Departamento de Letras. III. Título.
PUC-Rio - Certificação Digital Nº 0410515/CA
Ao Beto, meu pai, com saudade eterna.
À Marilene, minha mãe, com a esperança de que encontre um novo caminho.
PUC-Rio - Certificação Digital Nº 0410515/CA
Computadores são inúteis. Eles só podem dar respostas.
(Pablo Picasso)
– E a Máquina de Pensar Bonito? - o Rafael perguntou.
– A Máquina de Pensar Bonito está logo depois do medo - disse o velho.
– O medo estava na nossa idéia - disse Rafael.
– E não está mais - completou o Gustavo.
– Quer dizer... - ia falando o velho.
– QUE A MÁQUINA DE PENSAR BONITO ESTÁ NA NOSSA CABEÇA? - Todos
falaram de uma vez, compreendendo o que o velho queria dizer.
– Sim. Na nossa cabeça. A Máquina de Pensar Bonito é...
– Nossa inteligência? - disse a Gabriela.
– A vontade que a gente sente de fazer as coisas direito? - perguntou a Mônica.
– A alegria que faz a gente gostar das pessoas?
O velho só balançava a cabeça e dizia:
– É isso aí. É isso aí.
(Do livro infantil A máquina de pensar bonito contra o medo que o medo faz, de
Carlos Alberto Castelo Branco)
PUC-Rio - Certificação Digital Nº 0410515/CA
Agradecimentos
Ao Cláudio, meu marido, pelo apoio de sempre e pelo prazer de ter seu amor e sua
companhia há dez anos. E à minha filha, Vitória, por me motivar a cada dia com a
esperança e o encanto da vida.
A Antonio e Vera, meus sogros, pelo apoio generoso com a Vitória, e pelo amor
incondicional que faz dela uma criança mais feliz.
À minha irmã Carla e às minhas sobrinhas Juliana e Fernanda, minhas melhores
amigas, especialmente pelo carinho que tiveram com a Vitória durante as minhas
horas de estudo.
Aos colegas pesquisadores que compartilharam seus conhecimentos e sua
bibliografia com tanta generosidade: Belinda Maia, Luís Sarmento, Lúcia Specia,
Carmen Dayrell e Adriana Rieche.
Aos meus professores por tudo que me ajudam a conhecer, em especial Márcia
Martins e Maria Paula Frota, que sempre me ensinam e apóiam desde a
graduação, e Helena Martins, pelo brilhante curso de semântica que plantou em
mim as sementes, ainda acanhadas, da filosofia e do não-representacionismo.
Aos colegas de curso e do Centro de Lingüística Computacional (clic), pelo
aprendizado conjunto e pelo carinho, em especial Lia Jucá, Fernando Gil, Maria
Alice Antunes, Milena Garrão, Cláudia Freitas e Cláudia Oliveira.
À Carolina Alfaro, colega genial e amiga generosa, pela ajuda desde a prova de
seleção até a epígrafe, com direito a caronas com bate-papo pra lá de inteligente.
À amiga Ligia Paixão pela ajuda sempre safa e prestativa. Este trabalho não teria
sido possível sem você.
À amiga Natália Botelho pelo apoio emocional e com a bibliografia ainda na
época da prova de seleção para o mestrado.
Ao engenheiro de localização Ricardo Júnior, por toda a ajuda técnica, neste
trabalho e sempre.
A Marcelo Buzzatti e Lilian Alves, por acreditarem na parceria entre o mercado
de trabalho e a universidade.
Ao departamento de Letras, especialmente à secretária Francisca Ferreira, pela
ajuda sempre competente e atenciosa ao longo do curso.
À CAPES, pelo apoio financeiro.
Em especial, à minha orientadora Maria Carmelita Pádua Dias, escolhida muito
antes do próprio mestrado e do tema de pesquisa. Sua orientação generosa e
serena e a confiança no meu trabalho só provaram como a minha escolha foi
acertada.
PUC-Rio - Certificação Digital Nº 0410515/CA
Resumo
Ribeiro, Gabriela Castelo Branco; Dias, Maria Carmelita Padua
(Orientadora). Avaliação de tradução automática no mercado de
localização de software: um estudo de caso. Rio de Janeiro, 2006. 128p.
Dissertação de Mestrado – Departamento de Letras, Pontifícia
Universidade Católica do Rio de Janeiro.
Este estudo foi motivado pela utilização, ainda em caráter experimental, de
um tradutor automático por uma empresa multinacional de localização de
software. A fim de contribuir para essa iniciativa pioneira no país, propomos uma
avaliação do programa, enfocando as implicações da utilização desta tecnologia
no processo de localização de software. Empregamos a taxonomia proposta pelo
FEMTI (Framework for the Evaluation of Machine Translation in ISLE),
desenvolvida especialmente para a avaliação de tradução automática, com base
nas normas ISO/IEC de qualidade de software. São considerados aspectos
operacionais, como a integração do sistema de tradução automática às ferramentas
de memória de tradução, bem como questões relacionadas à linguagem. O corpus
utilizado para a avaliação foi um manual de usuário de um telefone celular. Além
dos problemas lingüísticos recorrentes na maioria das ferramentas de tradução
automática disponíveis atualmente, são analisados os desvios relacionados à
tradução da interface com o usuário, mais especificamente aos menus do telefone
celular. Esses desvios são discutidos dentro das categorias pertinentes da
taxonomia do FEMTI e, sempre que possível, foram sugeridas soluções. Para
complementar a análise lingüística, apresentamos outros três estudos realizados
para o português. Nossos resultados indicam que o sistema pode ser bem-sucedido
neste mercado em função principalmente da delimitação do domínio e da adoção
dos procedimentos impostos pelo processo de localização. Esse sucesso depende
da integração do tradutor automático às memórias de tradução e de investimentos
relativamente pequenos na atualização dos recursos lingüísticos (regras
gramaticais e dicionários) para refletir as características próprias do domínio e do
tipo de texto.
Palavras-chave
Tradução automática, avaliação, localização de software, manual do
usuário, interface com o usuário
PUC-Rio - Certificação Digital Nº 0410515/CA
Abstract
Ribeiro, Gabriela Castelo Branco; Dias, Maria Carmelita Padua (Advisor).
Machine translation evaluation for the software localization industry:
a case study. Rio de Janeiro, 2006. 128p. MSc. Dissertation –
Departamento de Letras, Pontifícia Universidade Católica do Rio de
Janeiro.
This study was motivated by the trial implementation of a machine
translation engine by a multinational software localization company. In order to
contribute to this innovative experiment in the Brazilian market, we evaluate the
engine, focusing on the implications of its implementation in the software
localization industry. We use the FEMTI (Framework for the Evaluation of
Machine Translation in ISLE) taxonomy, which is based on the ISO/IEC
guidelines for software evaluation. Operational aspects, such as the engine’s
integration with translation memory tools, are taken into consideration, as well as
language issues. Our evaluation is based on the machine translated version of a
mobile phone user guide. In addition to the language problems common to most
machine translation engines currently available, we analyze issues related to the
user interface, particularly to the phone menus. These problems are discussed as
examples of each related FEMTI topic and we suggest solutions whenever
possible. To add to our language evaluation, we present three other studies
dedicated to Portuguese. Our results indicate the engine can be successful in this
industry mainly in terms of domain restriction and localization workflow
procedures. Its success depends on its integration to translation memory tools and
requires relatively little investment in updating the language resources (rules and
dictionaries) to reflect the language characteristics specific to domain and text
type.
Keywords
Machine translation, evaluation, software localization, user guide, user
interface
PUC-Rio - Certificação Digital Nº 0410515/CA
Sumário
1. Introdução 11
1.1. Objetivo 12
1.2. Estrutura da dissertação 13
2. Contextualização
14
2.1. Tradução automática 14
2.2. Localização 22
2.3. Tradução automática no mercado de localização 34
3. Avaliação de tradução automática: teoria e iniciativas
36
3.1. Avaliação de tradução automática: teoria 36
3.2. A proposta de avaliação do FEMTI 40
3.3. Três estudos sobre avaliação para o português 47
3.3.1. Aspectos gerais dos estudos 48
3.3.2. Categorias de erros 54
3.3.2.1. As categorias de Dayrell 54
3.3.2.2. As categorias de Oliveira et al 56
3.3.2.3. As categorias do TrAva 59
3.3.3. Resultados dos estudos 61
3.4. Comentários finais 65
4. Estudo de caso de tradução automática para o mercado de localização
67
4.1. Avaliação com base na taxonomia do FEMTI 68
4.2. Casos diversos 105
4.3. Acertos do programa 109
4.4. Comentários finais 110
5. Conclusão
113
5.1. Possíveis desdobramentos desta pesquisa 115
5.2. Perspectivas para o futuro
116
6. Referências bibliográficas 118
Anexos
123
PUC-Rio - Certificação Digital Nº 0410515/CA
Lista de tabelas
Tabela 1 – Categorias para classificação dos problemas de morfologia e
léxico do TrAva (Sarmento, no prelo)
60
Tabela 2 - Categorias para classificação dos problemas de sintaxe do
TrAva (Sarmento, no prelo)
61
PUC-Rio - Certificação Digital Nº 0410515/CA
1
Introdução
Ao longo dos últimos sessenta anos, muitas pesquisas se dedicaram ao
desenvolvimento e à avaliação da tradução automática (ou tradução por máquina),
especialmente nos Estados Unidos, na Europa e no Japão, com a participação de
universidades, empresas e governos. No Brasil, essa ainda é uma área de estudo
pouco explorada, com esforços sobretudo no meio acadêmico.
Nesse cenário, a presente pesquisa pretende contribuir para uma iniciativa
pioneira do setor privado no Brasil, de utilização da tradução automática numa
área específica do mercado de tradução: a localização de software. Seguindo a
tendência da empresa em outros países, a filial brasileira de uma multinacional
especializada em localização iniciou a implantação do sistema de tradução
automática no escritório brasileiro, ainda em caráter experimental. Tal iniciativa
representa um grande campo de exploração de inúmeras questões relacionadas à
tradução e à lingüística computacional, podendo contribuir para o estudo dessas
áreas e de muitas áreas afins, como lingüística, semântica, inteligência artificial e
desenvolvimento de software, entre tantas outras, e principalmente para o
desenvolvimento da tradução automática para o português.
Outro benefício direto dessa iniciativa pode ser uma mudança de atitude em
relação à tradução automática. Em geral, usuários e tradutores profissionais ainda
têm uma reação muito negativa, decorrente sobretudo da baixa qualidade das
traduções geradas pela maioria dos programas disponíveis e da visão de que o
tradutor automático seria uma ameaça ao tradutor profissional. Em relação à
qualidade, ainda há muito a ser feito, mas não há dúvida de que é possível
melhorá-la sensivelmente para tornar o tradutor automático útil de fato. Em
relação a seu papel na sociedade, entendemos o tradutor automático como uma
ferramenta. Como tal, ele não substitui e sim auxilia usuários finais e tradutores a
desempenharem suas tarefas com mais eficiência, assim como os corretores
ortográficos, os dicionários eletrônicos e as ferramentas de memória de tradução.
Como veremos, alguns estudos indicam um aumento de produtividade de até 50%
PUC-Rio - Certificação Digital Nº 0410515/CA
12
com o uso de tradução automática, mesmo em áreas como marketing, cuja
linguagem não é tão repetitiva como em manuais técnicos, por exemplo.
Do ponto de vista do mercado de localização, o investimento em tradução
automática pode representar uma redução de prazos e custos e, no Brasil, se faz
necessário para acompanhar as tendências do mercado internacional e os avanços
tecnológicos na área.
Como vemos, as perspectivas são positivas e as possibilidades de pesquisa
na área de tradução automática, inúmeras. O nosso estudo se concentra em
contribuir para o sucesso da iniciativa de utilização da tradução automática no
mercado de localização de software. Na próxima seção, apresentamos nossos
objetivos.
1.1.
Objetivo
O presente estudo tem dois objetivos principais:
avaliar um software de tradução automática no mercado de localização
de software; e
identificar questões específicas do mercado de localização e suas
implicações para o uso da tradução automática.
Para atender a esses objetivos, empregamos uma taxonomia desenvolvida
especialmente para a avaliação de tradução automática, com base nas normas
ISO/IEC de qualidade de software. Para avaliar os aspectos lingüísticos
específicos do português, selecionamos um material representativo do mercado de
localização: um manual de usuário de um telefone celular. Da tradução do manual
gerada pelo tradutor automático, concentramos nossa análise na lista de menus do
telefone. Os menus são um exemplo de outro componente típico do mercado de
localização: as opções de interface, que são o que o usuário vê na tela do aparelho.
Assim, podemos incluir como objetivos adicionais:
identificar características próprias do gênero manual e das opções de
interface; e
analisar o impacto dessas características sobre a tradução automática.
PUC-Rio - Certificação Digital Nº 0410515/CA
13
1.2.
Estrutura da dissertação
Esta dissertação está organizada da seguinte forma: no capítulo 2, fazemos
uma contextualização, apresentando os principais aspectos do mercado de
localização, um breve histórico e os conceitos centrais da tradução automática e
alguns estudos que estabelecem relações entre as duas áreas.
O foco do capítulo 3 é a avaliação de tradução automática. Além de algumas
considerações teóricas, apresentamos a taxonomia proposta no projeto FEMTI
(Framework for the Evaluation of Machine Translation in ISLE), desenvolvido
pelo ISLE (International Standards for Language Engineering), que considera
aspectos contextuais mais abrangentes, e três estudos voltados especificamente
para o português. Esses estudos são fontes importantes de informações para o
aprimoramento efetivo do sistema de TA que avaliamos e complementam a nossa
avaliação, que tem um escopo limitado ao mercado de localização.
No capítulo 4, apresentamos nosso estudo de caso, no qual aplicamos parte
da taxonomia do FEMTI para avaliar o sistema de TA em questão, com base na
tradução gerada para o manual do usuário do telefone celular. Como não tivemos
acesso ao software, não foi possível avaliar algumas categorias, que, de fato,
fogem ao escopo da nossa pesquisa. Para aprofundar a análise lingüística,
sugerimos subcategorias elaboradas com base nos erros encontrados na tradução
da lista de menus.
Finalmente, no capítulo 5 apresentamos as conclusões, os possíveis
desdobramentos e as perspectivas para o futuro.
PUC-Rio - Certificação Digital Nº 0410515/CA
2
Contextualização
Neste capítulo, apresentamos a tradução automática e a localização de
software e comentamos algumas relações entre as duas áreas a fim de
contextualizar nosso estudo de caso, que será apresentado no capítulo 4.
2.1.
Tradução automática
Breve histórico
A tradução automática é comumente entendida como a tradução gerada por
computador. Alguns sistemas de tradução automática (daqui em diante também
referida como TA) incluem etapas para participação humana, seja na manutenção
ou no aprimoramento do sistema, com a inclusão de termos nos dicionários ou de
regras gramaticais, seja durante o próprio processo de tradução, para seleção da
melhor opção dentre aquelas apresentadas pelo sistema, por exemplo. Contudo,
independentemente da etapa em que haja intervenção humana e de quão freqüente
ela seja, o fator determinante na tradução automática é que a interpretação do
texto de origem e a produção do texto traduzido são realizadas pelo computador.
A TA sempre foi um tema polêmico. As opiniões variam desde um
ceticismo absoluto sobre a possibilidade de um computador realizar uma tarefa
humana tão complexa até a convicção de que seja apenas uma questão de tempo
até que os computadores sejam capazes de substituir os tradutores. Entre esses
extremos, há aqueles que acreditam que a TA seja possível dentro de contextos
específicos, outros que vivenciam um certo sentimento de ameaça, como relatado
por alguns tradutores profissionais, ou um sentimento de insatisfação em relação à
qualidade, como o público leigo e os usuários dos poucos sistemas disponíveis
atualmente para português.
PUC-Rio - Certificação Digital Nº 0410515/CA
15
A história da TA costuma ser dividida em fases bem distintas na literatura
(Martins&Nunes, 2005; Dayrell, 1999; Arnold et al, 1993; Hutchins&Sommers,
1992).
Na primeira fase, por volta da década de 50, a TA surgiu como um projeto
ambicioso, em que o desconhecimento sobre a complexidade da linguagem
humana deu margem a pretensões de substituição do tradutor humano e criação de
um processo totalmente automatizado, capaz de funcionar para várias línguas e
para qualquer assunto, com qualidade. As línguas eram entendidas como códigos
e parecia fazer sentido aplicar também às línguas os métodos de criptografia
dominados pelos matemáticos, para gerar traduções de qualidade com mais
rapidez e menor custo.
Grandes investimentos foram feitos, especialmente pelos governos dos
Estados Unidos e de alguns outros países, motivados pela possibilidade de utilizar
os tradutores automáticos em assuntos de interesse militar. Contudo, na segunda
fase, já em meados da década de 60, constatou-se que os resultados não foram os
esperados, os problemas se multiplicavam e os investimentos pesados não
apresentavam o retorno pretendido, fazendo com que o projeto praticamente
tivesse sua morte decretada com o famoso relatório ALPAC (Automatic Language
Processing Advisory Committee) em 1966. Apesar de ser voltado especificamente
para o governo dos Estados Unidos e se restringir à avaliação dos resultados em
relação à tradução automática de documentos de interesse militar escritos em
russo, o parecer negativo do relatório teve um forte impacto nas pesquisas em
tradução automática em geral, fazendo com que houvesse pouco investimento (e,
conseqüentemente, pouco desenvolvimento) nessa área durante a década seguinte.
Apesar da redução do interesse direto em TA, as constatações e as
recomendações do relatório tiveram impacto decisivo no desenvolvimento de
outras áreas de interação entre linguagem e tecnologia: o relatório sugeria que os
esforços e investimentos deveriam se concentrar em pesquisas mais básicas em
lingüística computacional e a própria tradução automática, assim como outras
ferramentas, deveriam ser desenvolvidas como forma de apoio à tarefa do tradutor
humano, e não de substituição. As ferramentas de auxílio à tradução (ou CAT,
computer-aided tools) desenvolveram-se muito a partir deste período. Além de
dicionários eletrônicos, corretores gramaticais e ortográficos e ferramentas para
PUC-Rio - Certificação Digital Nº 0410515/CA
16
gerenciamento de terminologia, por exemplo, as CATs que mais ganharam
expressividade no mercado nos últimos 20 anos foram os programas de memória
de tradução, como o Trados Workbench, o Wordfast, o Déjà Vu e o SDLX, que
têm fundamental importância no contexto deste trabalho pela sua aplicação no
mercado de localização de software, como veremos mais adiante na seção sobre
localização.
Numa terceira fase, por volta do início da década de 80, observou-se uma
retomada de interesse sobre a tradução automática, ainda com motivação militar,
durante a Guerra Fria, mas também com motivação comercial, já que nessa época
os computadores pessoais, os aplicativos e a internet começavam a ser utilizados
por milhões de pessoas em todo o mundo. Facilitar a comunicação no mundo
globalizado e, principalmente, reduzir os custos e o tempo gastos com tradução
voltou a ser prioridade.
Apesar de manter vários dos principais objetivos iniciais, como a redução
dos custos e do tempo para a realização das traduções, a retomada das pesquisas
em tradução automática teve características muito diferentes daquelas do projeto
inicial da década de 40. Além do amplo desenvolvimento tecnológico, as
pesquisas sobre inteligência artificial, linguagem e processamento de linguagem
natural (PLN) já estavam mais avançadas e era possível saber, também com base
nos resultados dos primeiros projetos, que fazer com que uma máquina
reproduzisse o processo tradutório humano era uma tarefa ambiciosa demais. O
escopo dos projetos assumiu um perfil mais realista e a pretensão de desenvolver
um programa capaz de traduzir com qualidade qualquer assunto em qualquer
idioma deu lugar ao objetivo de utilizar a tradução automática em domínios
específicos do conhecimento, muitas vezes em pares de idiomas e direções
delimitados (somente do inglês para o francês, por exemplo). O projeto canadense
MÉTÉO®, talvez a iniciativa mais bem-sucedida e famosa atualmente, mostrou
ser possível utilizar com sucesso a tradução automática em domínios restritos,
como as previsões meteorológicas. O projeto é utilizado de inglês para francês até
hoje, desde 1977.
Restringir a tradução automática a domínios específicos foi um passo que
representou várias vantagens práticas: em sistemas como o que foi utilizado na
presente pesquisa, por exemplo, baseados em conhecimento lingüístico com
PUC-Rio - Certificação Digital Nº 0410515/CA
17
gramáticas e dicionários, é possível criar e ampliar constantemente dicionários
com a terminologia específica do domínio, analisar os padrões lingüísticos do
texto original e criar regras gramaticais mais específicas (referentes ao uso do
imperativo em manuais, por exemplo). A essa linguagem específica empregada
em um domínio, costuma-se dar o nome de sublíngua. Textos que tratam do
mesmo tema ou têm forma ou função semelhantes, como é o caso dos manuais, e
de certa forma, dos softwares, tendem a utilizar um vocabulário comum,
estruturas sintáticas similares e, portanto, a identificação, a descrição e a
formalização dessas semelhanças delimitam a tarefa, que antes tinha a ambição de
formalizar a linguagem como um todo, e tendem a contribuir para a melhoria do
desempenho dos sistemas.
Mesmo dentro da sublíngua dos domínios, é possível restringir ainda mais a
linguagem, empregando uma linguagem controlada, cujo principal objetivo é
reduzir a ambigüidade do texto original para melhorar a qualidade da tradução
automática. Isso pode ser feito durante a própria redação do material original, pelo
autor, ou na adaptação (pré-edição) de um texto já existente antes de submetê-lo à
TA.
Atualmente, o desenvolvimento tecnológico garante uma capacidade de
processamento de dados que era inimaginável décadas atrás. Com esses recursos,
as questões de formalização de conhecimento lingüístico e enciclopédico
assumiram o foco das discussões e dos estudos. Dentre elas, destacam-se as
questões que envolvem semântica e desambiguação de sentidos, tanto no nível
lingüístico quanto no nível cognitivo mais amplo, dos conhecimentos
extralingüísticos ativados por um tradutor humano durante a tarefa de tradução,
por exemplo.
Uma descrição mais detalhada sobre a história da tradução automática pode
ser encontrada em Arnold et al. (1994) e Hutchins&Sommers (1992).
Principais características dos sistemas de tradução automática
Atualmente, vários tipos de sistemas de TA coexistem. Eles partem de
premissas diferentes sobre o que sejam linguagem e tradução e são utilizados para
diferentes propósitos.
PUC-Rio - Certificação Digital Nº 0410515/CA
18
Os sistemas variam de acordo com a quantidade de idiomas envolvidos,
podendo ser bilíngüe ou multilíngüe (Martins&Nunes, 2005).
Outra variação diz respeito à direção da tradução. Um sistema desenvolvido
para traduzir especificamente de inglês para português, por exemplo, é um sistema
unidirecional. Já um sistema que ofereça a possibilidade de tradução na direção do
inglês para o português e do português para o inglês, por exemplo, será chamado
de bidirecional (Rino&Specia, 2002).
A utilidade da TA é em grande parte determinada pela capacidade dos
sistemas disponíveis. No estágio atual de desenvolvimento, a maioria dos sistemas
é capaz de produzir um desses dois tipos de tradução: a “rudimentar” (rough) ou a
“crua” (raw) (Martins&Nunes, 2005). A tradução rudimentar apresenta uma
qualidade inferior, servindo principalmente ao propósito de compreensão mais
superficial de um texto (gisting). É muito utilizada na internet ou por empresas
para determinar se um texto deve ou não ser traduzido por profissionais, por
exemplo. Já a tradução crua em geral apresenta melhor qualidade e é utilizada
para a obtenção mais rápida e mais barata de uma primeira versão traduzida do
texto, para a posterior revisão (pós-edição) desse “rascunho”. No primeiro caso,
até mesmo os sistemas mais simples, que empregam uma tradução “palavra por
palavra”, podem conseguir atender ao objetivo. No segundo caso, vários tipos de
sistemas são usados, recorrendo a diferentes métodos e recursos para garantir um
nível de qualidade que justifique sua utilização. Esse é o caso, por exemplo, dos
sistemas utilizados pela Comissão Européia e por empresas como a Siemens e a
Toshiba (ibidem). Se a qualidade não fosse razoável, não se justificaria o
investimento em TA, sendo provavelmente melhor recorrer diretamente a
tradutores profissionais, apesar dos custos.
Em relação à intervenção humana, os programas podem ser interativos,
contando com a participação do usuário durante o processo tradutório (para a
seleção de uma dentre duas opções para uma frase ambígua, por exemplo) ou não-
interativos. Alguns programas oferecem a possibilidade de intervenção em seus
parâmetros e configurações, para inclusão ou alteração de regras gramaticais ou
de palavras nos dicionários, por exemplo. Uma terceira forma de intervenção
humana se dá em relação aos textos envolvidos no processo. Em relação ao texto
original, pode haver a pré-edição (para alteração de características do texto a fim
PUC-Rio - Certificação Digital Nº 0410515/CA
19
de reduzir ambigüidades e facilitar a TA) e o uso de linguagem controlada. Na
pré-edição de um texto já existente, são feitas adaptações diretas ou são incluídas
marcações que visam fornecer informações metalingüísticas ao sistema. Já no
caso da linguagem controlada, o texto é escrito de acordo com regras rígidas de
redação, que refletem as características lingüísticas com as quais o tradutor
automático já tem capacidade de lidar.
Finalmente, Martins&Nunes (2005) citam a pós-edição, na qual a
intervenção humana se dá pela revisão, por tradutores ou revisores especializados,
do texto gerado pela máquina. Atualmente, essa é a intervenção mais utilizada.
Specia&Rino (2002) definem os sistemas em relação a dois aspectos
principais: seus métodos de tradução e seus paradigmas. Os métodos são a
tradução direta (palavra por palavra) ou a tradução indireta, sendo que o último
pode ser baseado em transferência ou em interlíngua. No método direto pode
haver algum processamento morfológico e um reordenamento básico de palavras,
mas não há processamento sintático. O método de tradução indireta baseado em
transferência procura estabelecer correspondências principalmente entre as
estruturas sintáticas e às vezes envolve aspectos semânticos das línguas
envolvidas e, por isso, é específico para um determinado par de idiomas. Já o
método indireto por interlíngua procura estabelecer uma linguagem independente
das línguas envolvidas. Esse método procura desmembrar o processo de tradução
em duas etapas separadas: “a de projeção ou representação do texto-fonte na
língua intermediária; e a da geração do texto de saída, na língua-alvo, a partir
desta representação intermediária” (Martins et al, 2004:41). Uma discussão mais
detalhada sobre os métodos, suas vantagens e desvantagens e exemplos de
implementação no Brasil e no exterior pode ser encontrada em Specia&Rino
(2002) e Martins et al (2004). Na taxonomia FEMTI (Hovy et al, 2002) que
aplicaremos no capítulo 4, os métodos são chamados de modelos e os paradigmas,
de metodologias.
Sobre os paradigmas, Specia&Rino (2002) apresentam uma descrição
bastante detalhada, dividindo-os entre fundamentais e empíricos. Os paradigmas
fundamentais baseiam-se em teorias lingüísticas bem definidas sobre as línguas
naturais envolvidas, enquanto os paradigmas empíricos “indicam técnicas
experimentais para especificar o mecanismo de tradução apropriado ao contexto
PUC-Rio - Certificação Digital Nº 0410515/CA
20
em foco” (ibidem, p. 15), sem recorrer diretamente a teorias lingüísticas e
baseando-se no uso do língua. Como observam as autoras, esses paradigmas
ganharam um grande impulso nos últimos anos com os avanços tecnológicos que
possibilitam o processamento rápido de grandes quantidades de dados.
Na estrutura de Specia&Rino (2002). os paradigmas fundamentais estão
divididos da seguinte forma:
TA baseada em regras – faz a tradução com base em regras
lingüísticas, em geral por mapeamento em árvores sintáticas;
TA baseada em conhecimento – também se baseia em regras e
envolve conhecimentos lingüísticos. A diferença principal está na
utilização de conhecimentos extralingüísticos (também chamados de
conhecimento de mundo ou conhecimento enciclopédico), apoiados
em ontologias ou modelos conceituais;
TA baseada em léxico – nesses sistemas, as regras para o
mapeamento entre as línguas envolvidas são determinadas pelos
itens lexicais e sua estrutura de argumentos;
TA baseada em restrições – nesse caso, as regras são definidas por
restrições lingüísticas que determinam as relações entre as estruturas
da língua-fonte e da língua-alvo;
TA baseada em princípios – nesse paradigma, em vez de regras
lingüísticas específicas, o sistema utiliza conjuntos de princípios
mais abstratos sobre morfologia, gramática e léxico. Um exemplo
apresentado pelas autoras é o sistema Princitran, baseado nos
princípios sintáticos da Teoria da Regência e Ligação (Chomsky
1981, apud Specia&Rino 2002);
TA shake and bake – esse paradigma baseia-se na transferência entre
itens lexicais. Uma vez que essa transferência é feita, o sistema
emprega um algoritmo não-convencional para combinar os itens
lexicais da língua-alvo, envolvendo apenas conhecimentos
monolíngües tanto na interpretação da frase original quanto na
geração da frase traduzida.
PUC-Rio - Certificação Digital Nº 0410515/CA
21
Os paradigmas empíricos descritos pelas autoras são os seguintes:
TA baseada em estatística – emprega técnicas estatísticas de
ocorrências de palavras e estruturas na língua-fonte e na língua-alvo
para resolver as tarefas envolvidas na tradução, como a
desambiguação lexical, por exemplo. A qualidade da tradução
produzida depende diretamente da abrangência e da qualidade do
corpus de pesquisa e da exatidão dos modelos probabilísticos;
Ta baseada em exemplos – também chamada de TA baseada em
casos. Toma como base um corpus paralelo (que contém textos
originais alinhados a suas respectivas traduções). Um algoritmo
compara o texto original com os textos do corpus. Ao encontrar uma
sentença semelhante, ele adota a tradução que foi dada a esse texto
como modelo para a nova tradução. A semelhança entre as sentenças
é “determinada pela distância semântica entre as suas palavras, a
qual pode ser calculada com base na distância entre essas palavras
em uma hierarquia de termos e conceitos provida, em geral, por um
thesaurus ou uma ontologia” (Specia&Rino, 2002:16). A quantidade
de dados necessária para esses sistemas é tão grande que pode
dificultar o armazenamento e as buscas. Uma combinação desse
paradigma a algum conhecimento lingüístico pode simplificar o
processamento;
TA baseada em diálogo – esses sistemas estabelecem uma interação
com o autor do texto original, identificando pontos de ambigüidade
que o autor deve esclarecer durante o processo de tradução ou antes
de submeter o texto à tradução. Devido à quantidade de informações
necessárias, em geral eles ficam restritos a domínios específicos;
TA baseada em redes neurais – Ainda não há sistemas totalmente
baseados em redes neurais, mas essa abordagem conexionista vem
sendo utilizada nas funções de parser (análise sintática),
desambiguação lexical e aprendizado automático de regras.
PUC-Rio - Certificação Digital Nº 0410515/CA
22
Por fim, Specia&Rino (2002) comentam os benefícios da utilização de
sistemas híbridos, que podem combinar as vantagens dos paradigmas
fundamentais e empíricos.
Como vemos, as possibilidades em tradução automática são inúmeras e as
escolhas teóricas e práticas dependerão em grande parte do contexto de utilização
pretendido. No caso do presente trabalho, o contexto de uso é o mercado de
localização, descrito na próxima seção.
2.2.
Localização
Localização de software e outros produtos
Cada vez mais empresas querem divulgar e vender seus produtos e
pesquisadores e pessoas comuns querem compartilhar suas descobertas e idéias.
Para todos eles, o mercado e o público não se restringem mais à própria
comunidade ou ao seu país, tendo se expandindo potencialmente para o mundo
inteiro pela internet. Porém, para que produtos e idéias possam atingir um público
maior, é preciso que eles sejam localizados. Assim, poderão ser entendidos e
consumidos por um maior número de pessoas em mercados variados.
Mas o que significar localizar? A LISA (Localization Industry Standards
Association) define localização como um processo que envolve a adaptação
lingüística e cultural de um produto para o local (país/região e idioma) no qual ele
será usado e comercializado (Rieche, 2004). Para que um software possa ser
vendido em outros países, é preciso que ele seja traduzido e adaptado a cada um
desses países, a cada língua e cultura. As adaptações podem incluir desde
mudanças nos formatos de hora, data, endereços e nomes até alterações nas cores
e símbolos, na organização interna e no conteúdo do produto, nas leis de direitos
autorais e na garantia e na estrutura do software. Um exemplo são os idiomas com
caracteres especiais, como as línguas asiáticas, o russo e o árabe (este último,
além das diferenças nos caracteres, é escrito da direita para a esquerda). Outro
exemplo citado no mercado é o da cor branca, que no Brasil e em outros países
representa a paz, mas na China é associada à morte.
PUC-Rio - Certificação Digital Nº 0410515/CA
23
Originalmente, o termo aplicava-se somente a programas de computador,
mas hoje em dia engloba outros produtos, como telefones celulares, microondas,
aparelhos de fax e de DVD, equipamentos médicos e industriais, websites,
material de e-learning, CD-ROM, jogos. O que faz com que softwares, páginas da
internet, CD-ROMs, microondas e telefones celulares sejam todos considerados
produtos localizáveis é o fato de combinarem tecnologia e linguagem e
envolverem mais de um meio de transmissão de dados (multimídia, neste sentido),
fazendo com que seu processo de adaptação para outros países tenha
características específicas, como veremos mais adiante. Como comenta Thomas
Wassmer no artigo “Tools for localizing multimedia applications” (2003:121), o
principal desafio “em todos os tipos de mídia ou em qualquer combinação de
mídias (multimídia) é ter acesso ao texto escrito e falado para facilitar a
localização e depois pôr essas traduções de volta na mídia” (nossa tradução)
1
.
Como mencionado anteriormente, os produtos envolvem tecnologia e
linguagem específicas e a tradução e a adaptação de seus conteúdos dependem de
muitas etapas. Eles são dinâmicos e as opções do usuário e os textos inseridos por
ele provocam ações diferentes, fazendo com que o produto realize diferentes
operações.
A seguir, será apresentado, em linhas gerais, o processo de localização.
O processo de localização
O processo de localização pode começar numa empresa especializada ou na
própria empresa fabricante do produto. Alguns fabricantes têm um departamento
dedicado ao gerenciamento do processo de localização e chegam a fazer parte das
tarefas internamente. No entanto, por questões relacionadas a custos decorrentes
da complexidade do processo de localização, essa atividade passou a ser
terceirizada para empresas especializadas na localização do produto em vários
idiomas.
1
“[...] it is the common problem in all types of media and in any combination of those
(multimedia) to have written and spoken language accessible for an easy localization and then get
those translations back into the media.”
PUC-Rio - Certificação Digital Nº 0410515/CA
24
Como a maioria dos fabricantes dos softwares utilizados no Brasil é
estrangeira, o processo começa ainda no exterior. Por isso, normalmente os
clientes das empresas de localização brasileiras não são diretamente os
fabricantes, como a Microsoft e a Symantec. Esses fabricantes contratam grandes
empresas de localização para gerenciar o processo geral e terceirizar cada idioma
para empresas especializadas nos países onde o produto será comercializado.
O sucesso do processo de localização depende muito das etapas de
globalização e internacionalização do produto, realizadas pelo fabricante. Essas
etapas estratégicas visam o planejamento da comercialização do produto em
outros países (globalização) e seu desenvolvimento voltado para a localização,
para que ele já seja desenvolvido de forma a facilitar o processo
(internacionalização) (Rieche, 2004).
Uma das principais tarefas do processo de localização é ter acesso ao texto
falado ou escrito para traduzi-lo e depois inseri-lo de volta no produto. Para que
essa tarefa seja possível, a engenharia é uma etapa fundamental. Dentre outras
tarefas, cabe aos engenheiros de software extrair todo o texto traduzível,
protegendo os códigos de programação, e converter os arquivos do software em
formatos mais acessíveis para os tradutores, como arquivos rtf, editáveis nos
principais processadores de textos, como o Microsoft Word.
Ao gerente de projeto cabem as tarefas de fazer o cronograma do projeto,
considerando sempre o prazo estabelecido pelo cliente, selecionar e contactar a
equipe, organizar o material necessário (arquivos para tradução, material de
referência, instruções, arquivos de memória de tradução) e enviar os arquivos para
a engenharia e posteriormente para os tradutores e revisores, além de fazer todo o
acompanhamento e a conclusão do projeto. Quando a engenharia conclui a
preparação dos arquivos, o gerente de projeto elabora o cronograma e envia o
material para a equipe de tradutores. Normalmente, o serviço de tradução é
terceirizado para tradutores autônomos ou que atuam como pessoa jurídica, para
evitar os encargos e custos de manter um grande número de funcionários
contratados pela empresa.
A etapa seguinte à tradução é a revisão. Nessa fase, profissionais em geral
mais experientes no processo de localização e na área de especialidade do
software (informática, finanças ou medicina, por exemplo) comparam o texto
PUC-Rio - Certificação Digital Nº 0410515/CA
25
original e o traduzido, verificando a precisão da tradução em relação ao original, o
estilo e a correção gramatical e a padronização terminológica do texto traduzido.
Após a revisão, os engenheiros convertem o material de volta para o formato
original e atualizam a memória de tradução. Em relação ao material impresso
(normalmente o guia do usuário e a embalagem), a etapa final é a editoração
eletrônica, ou DTP (Desktop Publishing), para formatação final. Geralmente
depois disso acontece a etapa de proofreading, de leitura final do material em
português sem referência ao texto original, apenas para garantir a fluência e a
correção gramatical do texto traduzido. A fase de compilação do software no novo
idioma freqüentemente é realizada no país de origem. Após a compilação, começa
a fase de teste, em que são verificados a visualização e o funcionamento de todas
as opções, caixas de diálogo e mensagens. É essencial que todos os componentes
possam ser corretamente visualizados pelo usuário e que os recursos estejam
funcionando corretamente na versão localizada.
Após a conclusão de todas essas etapas, o projeto é submetido a um
processo de controle de qualidade (QA, Quality Assurance), cujos critérios podem
variar de empresa para empresa.
As ferramentas de tradução
No mercado de tecnologia, os avanços são rápidos. Novas versões dos
produtos são lançadas freqüentemente para oferecer novas opções aos usuários e
as empresas de localização estão sempre em busca de soluções que reduzam o
tempo de realização do projeto e seus custos, sem comprometer a qualidade. Para
atender a essas necessidades, várias ferramentas vêm sendo desenvolvidas e
utilizadas no mercado de localização. Algumas dessas ferramentas visam
dinamizar ou até mesmo automatizar o gerenciamento do processo. Outras se
dedicam ao gerenciamento de terminologia, como o Trados MultiTerm e o
SDLTermBase. As ferramentas mais amplamente utilizadas são as memórias de
tradução.
Para compreender o processo de localização e a utilidade das memórias de
tradução é preciso saber que o volume de texto de um software costuma ser muito
alto, muitas vezes ultrapassando 500 mil ou até um milhão de palavras. Para se ter
PUC-Rio - Certificação Digital Nº 0410515/CA
26
um termo de comparação, esta dissertação de mestrado contém menos de 35.000
palavras. A contagem de volume de texto é feita por número de palavras do texto
original porque a estrutura de um software é diferente da de um texto corrido,
como um livro ou um contrato, não sendo possível fazer a contagem por páginas
ou laudas, por exemplo.
O volume de palavras também determina o número de pessoas envolvidas
no projeto. A equipe de tradutores e revisores precisa ser composta por várias
pessoas, algumas vezes chegando a mais de 30 profissionais, caso contrário, o
prazo para lançamento do produto levaria muitos meses, o que é inviável nas áreas
de tecnologia.
Além do volume de texto, outro dado fundamental é a quantidade de
repetições, seja dentro de uma mesma versão ou entre versões. A cada atualização
de um produto, em geral apenas algumas modificações são feitas e poucas funções
novas são acrescentadas. A maior parte do conteúdo se mantém inalterada. Não
seria razoável fazer novamente a tradução do material completo, não somente
devido aos recursos e ao tempo consumidos, mas também porque haveria
diferenças entre as versões, comprometendo a familiaridade que os usuários das
versões anteriores já têm com o software.
É nesse contexto que as ferramentas de tradução surgem como uma solução
satisfatória em termos de economia de tempo e dinheiro e de garantia de
homogeneidade de terminologia e estilo numa equipe tão numerosa. Esses
programas segmentam os textos originais em trechos mais ou menos equivalentes
a uma oração e duplicam esse mesmo trecho no arquivo processado, fazendo com
que a mesma frase apareça duas vezes no arquivo. O tradutor, então, insere sua
tradução na segunda ocorrência, de modo que o arquivo passa a apresentar um
trecho no idioma original seguido de sua tradução. Assim, cria-se um banco de
dados para armazenamento de todas as traduções já feitas, que podem ser
reaproveitadas. Alguns exemplos dessas ferramentas são o Trados Workbench, o
SDLX, o Wordfast, o Déjà Vu e o StarTransit. Com elas, cada trecho traduzido vai
sendo armazenado, o que é especialmente útil em textos repetitivos como
softwares, manuais e contratos. Na próxima ocorrência daquele trecho ou de um
trecho semelhante, o programa apresenta a tradução armazenada e o tradutor pode,
então, optar se deseja utilizar a mesma tradução ou fazer alterações. Quando os
PUC-Rio - Certificação Digital Nº 0410515/CA
27
tradutores estão trabalhando no mesmo local (isto é, in-house, o que significa “no
escritório da empresa” no jargão de localização) e é utilizada uma versão
completa da ferramenta (para vários tradutores), todos os profissionais têm acesso
às traduções já feitas pelos colegas, o que agiliza o trabalho e ajuda a garantir a
homogeneidade do material. Sem esse recurso, cada tradutor provavelmente
traduziria a mesma frase de forma diferente na primeira vez em que se deparasse
com ela. Alguns programas de uso exclusivo, não comercializados, já oferecem
essa possibilidade remotamente, pela internet, o que elimina a necessidade de os
tradutores estarem trabalhando no mesmo local, como é o caso do Logoport, da
empresa Lionbridge. Local ou remotamente, quando a tradução é concluída, todos
os trechos estão armazenados num arquivo que é um banco de dados com os
trechos originais seguidos de suas respectivas traduções.
As ferramentas apresentam uma opção de “limpeza” dos arquivos, para que
o texto original seja apagado, restando somente o texto traduzido para ser
submetido ao controle de qualidade e entregue ao cliente. Caso a memória não
tenha sido compartilhada simultaneamente pelos vários tradutores, nessa etapa
também será feita sua atualização, com todos os segmentos de texto traduzidos.
Quando uma nova versão do produto é enviada para tradução, os arquivos são
comparados com a memória de tradução. Todos os segmentos que existiam na
versão anterior e se repetem na nova versão são identificados pela ferramenta, que
indica o percentual de aproveitamento do material que já está armazenado. A
ferramenta indica os segmentos exatamente iguais (que apresentam 100% de
match, ou correspondência), bem como segmentos em que há poucas diferenças
(fuzzy match). Assim, as traduções já existentes podem ser aproveitadas, os
tradutores fazem as alterações necessárias nos segmentos que apresentaram
alguma semelhança e apenas os segmentos para os quais não havia nenhuma
correspondência na memória (no match) precisam efetivamente ser traduzidos.
Alguns softwares têm um volume grande de palavras e várias versões beta
(de teste) antes do lançamento, o que faz com que as memórias sejam úteis
também porque possibilitam que o processo de localização seja iniciado antes de o
software ter sido finalizado pelo fabricante. Assim, ganha-se mais tempo para o
processo de localização e diminui-se o intervalo entre o lançamento de um
produto no país de origem e nos países para os quais ele está sendo localizado.
PUC-Rio - Certificação Digital Nº 0410515/CA
28
Quando a versão final do software é enviada para localização, basta utilizar a
memória, traduzir apenas o conteúdo acrescentado e incorporar as alterações
realizadas no original.
É importante observar que as memórias não realizam traduções automáticas.
Elas armazenam trechos de texto e suas respectivas traduções feitas por tradutores
humanos. A determinação da semelhança entre o texto original já armazenado e o
novo texto a ser traduzido é feita estatisticamente, sem nenhum critério semântico.
Uma descrição detalhada do funcionamento das memórias de tradução e da
importância de revisão e controle de qualidade do seu conteúdo pode ser
encontrada em Rieche (2004).
Componentes do processo de localização
Em termos de conteúdo e formato de arquivos, o processo de localização se
divide em três componentes principais: as opções de interface com o usuário, a
ajuda e a documentação. As opções de interface, também conhecidas como UI (de
GUI, graphic user interface) são compostas pelos textos extraídos dos menus, das
janelas, caixas de diálogo e mensagens, exibidos para o usuário durante a
utilização do programa. O sistema de ajuda contém o texto exibido nos menus de
ajuda do software, e a documentação geralmente é composta pelo material
impresso que acompanha o software (em geral, um manual), o material de
referência disponível em páginas da internet, além do texto de embalagens e
encartes. A tradução de cada um desses tipos de arquivo apresenta especificidades
e pode utilizar ferramentas de tradução diferentes.
Para a tradução dos arquivos de UI, algumas empresas, como a Microsoft,
possuem uma ferramenta própria, exclusiva, não disponível para venda. Das
ferramentas disponíveis no mercado, duas das mais utilizadas são o Alchemy
Catalyst e o Multilizer. Além de possibilitarem o processamento de arquivos de
diferentes formatos, com essas ferramentas os tradutores visualizam as caixas de
diálogo, as mensagens e as janelas do software como elas são na versão original,
podendo, em seguida, visualizar a interface com o texto traduzido. Essa
visualização é especialmente relevante por dois motivos: compreender o contexto
e respeitar as restrições de espaço. Em relação ao contexto, é complexo e às vezes
PUC-Rio - Certificação Digital Nº 0410515/CA
29
impossível traduzir palavras como display sem saber se estamos falando de um
visor ou usando a forma imperativa do verbo exibir, ou key, sem compreender se é
uma chave, uma senha ou a forma adjetiva fundamental (key factor, por exemplo).
Os arquivos da ajuda costumam ser criados em formato html. A empresa
Trados, por exemplo, oferece a ferramenta Tag Editor para edição desses arquivos
(que também pode ser usada para outros formatos), possibilitando a utilização da
memória de tradução, a proteção dos códigos de formatação (as tags) e a
visualização prévia da página traduzida no formato final. É comum também que
os arquivos .html sejam convertidos para um formato editável no Word, como rtf,
para facilitar o processo. Quando a ajuda é criada em Word, aplica-se o mesmo
processo utilizado para os arquivos de documentação.
A documentação costuma ser criada em programas próprios para
publicação, como o Adobe Framemaker. Para facilitar a tradução e a utilização da
memória de tradução, os arquivos de documentação geralmente são convertidos
para o formato rtf, editável no Word.
Esses três componentes variam também em relação às características
lingüísticas. A interface com o usuário apresenta uma linguagem mais concisa e
direta, para facilitar a utilização do software. Os menus apresentam comandos,
como “Salvar” e “Imprimir”, e entidades, como “Arquivo” e “Ferramentas”, no
Microsoft Word. As mensagens em geral contêm frases simples, com instruções
ou perguntas sobre determinada ação, como “Deseja salvar as alterações em
localização.doc?”. A linguagem da ajuda tenderá a ser um pouco mais concisa do
que a da documentação pela limitação das janelas do software, mas normalmente
tanto a ajuda quanto a documentação têm o papel de instruir o usuário a instalar e
utilizar o software (entre outras tarefas, como solucionar problemas e fazer
atualizações). Ambas fazem referência às opções de interface e é fundamental que
tanto o original quanto a tradução empreguem a mesma terminologia usada nelas.
Para explicar como salvar um arquivo do Microsoft Word, por exemplo, a ajuda e
o manual deverão mencionar a opção de interface “Salvar”, não podendo referir-
se a ela como “Gravar” ou “Armazenar”, o que poderia comprometer a
compreensão do usuário ou confundi-lo. A possibilidade de confusão seria ainda
maior se a tradução “Armazenar” tiver sido usada para outra função, como
“Store”, por exemplo.
PUC-Rio - Certificação Digital Nº 0410515/CA
30
Vale lembrar que freqüentemente são lançadas novas versões dos softwares
e que o processo de localização envolve grandes equipes de tradutores e revisores.
Garantir a homogeneidade de estilo e terminologia entre versões e entre tantos
profissionais exige um grande esforço de padronização. Nesse sentido, o material
de referência desempenha um papel fundamental de apoio à tarefa tradutória. Em
geral, ele é composto por glossários, guias de estilo, sites de internet e outros
documentos e produtos do fabricante. Os sites e a documentação servem
principalmente de referência para esclarecer questões técnicas ou o contexto de
uso do produto. Já os glossários e o guia de estilo contêm as diretrizes lingüísticas
específicas que devem ser consultadas e seguidas rigorosamente. Nos glossários
estão definidas a terminologia a ser empregada no projeto, a terminologia já
empregada nas versões anteriores do produto e as traduções específicas das
opções de interface (quando ela já foi traduzida antes da ajuda e da
documentação). Outra referência importante é a terminologia empregada no
sistema operacional em que o software será utilizado (Windows XP ou Windows
2000, por exemplo). Já os guias de estilo definem as padronizações referentes a
títulos, uso de maiúsculas, siglas, como fazer referência às opções de interface e
nomes de produtos e serviços, entre outros.
Controle de qualidade no mercado de localização
Como o processo de localização foi estruturado para a indústria de software,
os padrões de qualidade adotados internacionalmente para o processo e para os
produtos localizados em geral são os mesmos adotados para a fabricação dos
softwares originais (Rieche, 2004:87). O modelo mais empregado no mercado de
localização é o da LISA, que apresenta “diretrizes para o controle de qualidade de
todos os componentes de um produto localizado, incluindo aspectos lingüísticos,
de formatação e de funcionalidade” (ibidem, p. 88). Muitas empresas fazem suas
próprias adaptações do modelo, mas as categorias principais são preservadas. As
categorias apresentadas a seguir são baseadas no modelo utilizado pela empresa
de localização proprietária do sistema de TA avaliado nesta pesquisa
especificamente para o controle da qualidade lingüística.
PUC-Rio - Certificação Digital Nº 0410515/CA
31
As principais categorias são precisão (tradução incorreta, erros semânticos,
omissão, erros de referência cruzada e texto não-traduzido), terminologia (não-
observância a glossários e planilhas de dúvidas respondidas, não-incorporação dos
comentários do cliente referentes à amostra revisada do trabalho, falta de
padronização e inadequação ao contexto), correção gramatical (erros de
ortografia, de pontuação e gramática), estilo (inadequação do estilo geral, não-
observância ao guia de estilo do cliente final e da agência de localização,
acréscimos desnecessários, registro ou tom inadequados, uso impróprio de
variantes lingüísticas e uso de gírias), padrões locais (formato de hora e data,
símbolo de moeda, layout do teclado, inadequações culturais e padrões da
empresa, como copyright, suporte técnico e garantia). Existe ainda a categoria
erro funcional que, apesar de não ser especificamente lingüístico, pode ser
provocado pelo tradutor ou pelo revisor ao lidar com o texto e inclui erros de
formatação original (como não manter as fontes, os negritos e itálicos) e de
formatação de tags (códigos inseridos no texto) ou hiperlinks, modificação ou
exclusão de texto oculto e erros referentes a procedimentos técnicos, como
instruções sobre passagens a serem mantidas em inglês, por exemplo.
Todos os erros incluídos nessas categorias recebem ainda uma classificação
como erro grave (major) ou menos relevante (minor). Os erros serão considerados
graves se comprometerem o lançamento do produto, como uso de declarações que
possam ser ofensivas, erros que afetem a integridade dos dados ou a segurança
dos usuários, erros em passagens recorrentes ou de grande visibilidade (como
menus do software ou a capa do manual) e erros que demonstrem claramente que
as expectativas e exigências da empresa de localização e do cliente final não
foram atendidas.
Em geral, o controle é feito por amostragem durante o projeto de
localização. Como comenta Rieche, os modelos são uma “tentativa de estabelecer
critérios objetivos para avaliação da tradução” (2004:90) e são utilizados para
gerar métricas quantificáveis para aferir a qualidade do processo e dos
profissionais envolvidos, que têm implicação direta na qualidade do produto final.
Na prática, observamos que muitas dessas categorias são subjetivas e os
profissionais aprendem os critérios específicos com a experiência de trabalho e
com as avaliações de desempenho que recebem de cada cliente.
PUC-Rio - Certificação Digital Nº 0410515/CA
32
O mercado de localização cresceu e se estruturou voltado para a localização
de software. Contudo, como vimos, ele se expandiu e hoje abrange a localização
de muitos produtos de tecnologia, como websites, equipamentos médicos e
câmeras fotográficas. Apesar de o processo de localização estar bem-estruturado e
consolidado, cada um desses vários tipos de produtos apresenta suas
especificidades tanto lingüísticas quanto tecnológicas. No presente trabalho,
iremos nos concentrar na localização de aparelhos móveis, mais especificamente,
telefones celulares.
A localização de aparelhos móveis
A localização de aparelhos móveis ainda é uma área relativamente recente
de pesquisa, com poucas publicações. Em 2001, A LISA (The Localization
Industry Standards Association) publicou um artigo de apresentação da área, que
ainda é a única referência sobre o assunto disponibilizada pela instituição. O
artigo, escrito pelo engenheiro de localização Shailendra Musale, especialista em
aparelhos móveis da empresa F-Secure Corporation, na Finlândia, trata
especificamente de computadores móveis, como palmtops e handhelds. O foco da
nossa pesquisa é a localização de telefones celulares, mas até a data deste estudo,
não foram encontradas referências específicas sobre o tema. Contudo, muitas das
características dos computadores móveis se aplicam aos telefones celulares e é
cada vez maior a convergência entre esses aparelhos. Muitos telefones celulares já
oferecem acesso à internet e possuem câmeras digitais. Os smartphones, por
exemplo, são telefones celulares inteligentes, que combinam muitas das vantagens
dos telefones celulares e dos computadores de mão.
Musale (2001) ressalta que as principais diferenças entre a localização de
software e computadores pessoais convencionais e de aparelhos móveis são o
ciclo de vida mais curto dos aparelhos móveis e a maior influência dos clientes
para personalização dos produtos, o que exige prazos ainda mais curtos e mais
flexibilidade no processo de localização. Outra diferença básica diz respeito à
condução do processo de localização. Diferentemente dos grandes fabricantes de
software convencional, que em geral adotam os padrões já estabelecidos no
mercado e terceirizam a localização para empresas especializadas, muitos
PUC-Rio - Certificação Digital Nº 0410515/CA
33
fabricantes de software para aparelhos móveis ainda utilizam recursos internos,
sem experiência em localização.
Um dos principais desafios na localização de aparelhos móveis é a restrição
de espaço, devido ao tamanho reduzido das telas. No caso dos computadores
pessoais, muitos softwares permitem o redimensionamento das caixas de texto
para que, onde em inglês constava a palavra “share”, possa caber a tradução
“compartilhamento”, por exemplo. No entanto, essa possibilidade não existe para
os aparelhos móveis. Nesses casos, o tradutor é informado sobre o número
máximo de caracteres aceitos em cada tela e cabe a ele alterar a tradução e utilizar
paráfrases, formas mais concisas ou abreviações, situação equivalente, de certa
forma, ao que é vivenciado na tradução de legendas. Nesse mercado, a
importância da internacionalização fica ainda mais evidente. Como vimos
anteriormente, na indústria de software existe uma preocupação em já desenvolver
o produto procurando facilitar sua localização para outros mercados. Em alguns
aparelhos, no entanto, observamos que, devido às restrições, muitas vezes um
mesmo texto original é aproveitado para diferentes situações, como a palavra
“All” por exemplo. Em inglês, isso não provoca problemas de concordância de
gênero e número, mas em português teremos de utilizar a tradução “Todas” se o
contexto se referir a “chamadas” e “Tudo”, se o usuário desejar apagar todo o
conteúdo de uma mensagem, por exemplo. Assim, a utilização dessa mesma
string de software (o mesmo segmento de texto) representa um problema, muitas
vezes insolúvel, para a localização. Outra questão relacionada às strings é que, em
geral, elas são enviadas para tradução isoladamente, sem contexto. O tradutor é
obrigado a empregar uma tradução mais genérica, como “Todos” ou “Tudo”, que
pode se revelar inadequada em certos contextos de uso. Também por esse motivo,
assim como com os softwares convencionais, é fundamental submeter o aparelho
localizado, ou pelo menos reproduções das imagens das telas do aparelho
(screenshots), a um teste lingüístico, em que serão verificadas a correção e a
adequação das traduções aos devidos contextos.
Outra questão relevante é que, enquanto a maioria dos computadores
pessoais usados no Brasil utiliza o sistema operacional Microsoft Windows, os
aparelhos móveis utilizam sistemas diferentes, como o Microsoft Pocket PC, o
Palm OS e o Symbian OS, o que acarreta diferenças de terminologia e
PUC-Rio - Certificação Digital Nº 0410515/CA
34
funcionamento com as quais os localizers (tradutores envolvidos no processo de
localização) devem estar familiarizados.
Nessa seção apresentamos um breve panorama do mercado de localização.
Uma descrição abrangente pode ser encontrada no livro A Practical Guide to
Localization, de Bert Esselink (2000), que é a principal referência publicada na
área.
2.3.
Tradução automática no mercado de localização
No mercado de tecnologia, o ciclo de vida dos produtos é muito curto.
Novas versões de softwares e produtos são lançadas com freqüência e a demanda
por redução de prazos de lançamento e de custos é muito intensa. Essa pressão se
reflete diretamente no mercado de localização. O prazo e o custo da localização
não podem comprometer questões estratégicas, como o lançamento simultâneo do
produto em vários países e antes da concorrência. Nesse contexto, o uso de TA
pode ser um atrativo para a redução de prazos e custos, mas a desinformação
sobre o tema, as questões de qualidade, os custos diretos e indiretos e os critérios
para a escolha do melhor programa para cada contexto ainda aparecem como
obstáculos para a utilização mais ampla dessa ferramenta no mercado de
localização.
Esselink (2000), no livro que é a principal referência publicada sobre
localização, dedica apenas uma página ao tema, afirmando que a TA só trará
retorno se grandes investimentos forem feitos no uso de linguagem controlada no
texto original, na pós-edição e na alimentação do sistema com a terminologia do
domínio dos textos. Contudo, a visão de TA nesse mercado vendo mudando nos
últimos anos. É possível perceber um aumento de interesse pelo tema, refletido no
número de edições especiais e artigos sobre TA em publicações da área. Muitos
autores apresentam estudos de caso (Allen, 2004; Dillinger&Lommel 2004;
Guerra, 2004;) de implementações bem-sucedidas de TA não somente no mercado
de localização, seja do ponto de vista das empresas que são o cliente final, que
precisam traduzir grandes volumes para vários idiomas, ou do tradutor
profissional que pretende aumentar sua produtividade. Os estudos de Guerra
PUC-Rio - Certificação Digital Nº 0410515/CA
35
(2004) e Allen (2004) relatam o processo de implementação e o ganho de
produtividade inclusive com material de marketing, domínio cuja linguagem
normalmente é percebida como mais criativa do que em materiais de suporte
técnico, por exemplo.
A LISA (Localization Industry Standards Association) publicou em 2004
um guia em que faz uma introdução à TA, explica os vários modelos, compara
custos, discute vantagens e desvantagens e apresenta estudos de caso, sempre com
foco no mercado de localização. A publicação apresenta o uso da TA não apenas
como uma possibilidade vantajosa, mas como uma realidade imprescindível
financeiramente, especialmente para projetos que envolvam grandes volumes de
texto.
Como discutido na seção 2.2, as ferramentas de memória de tradução são
uma peça-chave no processo de localização. O aproveitamento das memórias e a
busca de formas de integração entre elas e os sistemas de TA têm sido tema de
pesquisas recentes (Hodasz et al, 2004; Bruckner&Plitt, 2001) e será o tema da
conferência anual da EAMT (European Association for Machine Translation) em
2006.
Neste capítulo, procuramos apresentar informações gerais sobre o processo
de localização e a tradução automática, que são os temas de nossa pesquisa. Antes
de analisarmos especificamente a utilização de TA no mercado de localização no
Brasil, discutiremos algumas pesquisas já produzidas sobre avaliação de TA, no
próximo capítulo.
PUC-Rio - Certificação Digital Nº 0410515/CA
3
Avaliação de tradução automática: teoria e iniciativas
Este capítulo está organizado da seguinte forma: primeiramente
apresentamos os principais conceitos referentes à avaliação de tradução
automática segundo Sarmento et al (no prelo) e algumas considerações de Hovy et
al (2002). Em seguida, comentamos a taxonomia proposta pelo FEMTI para a
avaliação de TA, que será aplicada em nosso estudo de caso. Finalmente,
apresentamos três estudos sobre avaliação de TA para o português, descritos em
Dayrell (1999), Oliveira et al (2000) e Sarmento (no prelo) e Maia&Barreiro (no
prelo).
3.1.
Avaliação de tradução automática: teoria
Com a retomada da tradução automática no final dos anos 80, a avaliação
nessa área vem recebendo um grande destaque. Além do clássico ALPAC, de
1966, comentado no capítulo 2, e das avaliações financiadas pela DARPA (United
States Defense Advanced Research Projects Agency), realizadas entre 1992 e
1994, algumas outras iniciativas de avaliação mencionadas por Hovy et al (2002)
são o projeto europeu EAGLES (Expert Advisory for Language Engineering
Standards), iniciado em 1993 e dedicado à avaliação de processamento de
linguagem natural em geral, e a campanha norte-americana do NIST (United
States National Institute of Standards and Technology), realizada entre 2001 e
2002, voltada para a avaliação humana e automática de TA. A taxonomia do
FEMTI utilizada na nossa pesquisa foi elaborada pelo projeto ISLE, que é a
continuação, em nível internacional, do projeto EAGLES.
É a partir das avaliações que os usuários podem determinar o sistema mais
adequado para suas necessidades, e usuários e fabricantes podem identificar os
problemas dos programas atuais e buscar soluções para eles, melhorando, assim, a
qualidade final das traduções geradas de acordo com as necessidades.
PUC-Rio - Certificação Digital Nº 0410515/CA
37
Como observam Sarmento et al. (no prelo), os critérios para avaliação de
tradução automática ou humana podem variar muito, devido à complexidade do
processo tradutório e aos objetivos da tradução e da avaliação, abrangendo tópicos
tão diversos como a correção lingüística formal e a função do material traduzido
na cultura de chegada. Conscientes dessa diversidade, os pesquisadores
responsáveis pelo FEMTI (Framework for the Evaluation of Machine Translation
in ISLE) procuraram reunir os vários métodos e critérios de avaliação existentes
para TA e propor uma taxonomia, aplicando também as normas ISO/IEC 9126 e
14598 de avaliação de software aos sistemas de TA. Essa taxonomia será
comentada na próxima seção e será aplicada no estudo de caso do capítulo 4.
Historicamente, as avaliações não têm considerado o contexto de uso,
ficando restritas aos aspectos lingüísticos com base em dois conceitos principais:
fluência e fidelidade. Esses conceitos, discutidos e questionados no âmbito dos
estudos da tradução, são apresentados de forma bastante tradicional na área de
avaliação de TA: a fluência costuma ser associada à capacidade do sistema de
gerar frases bem-formadas lexical e sintaticamente; já a fidelidade é determinada
em termos semânticos, em relação à preservação do significado original.
Quando a avaliação inclui critérios extralingüísticos, os mais freqüentes são
preço do sistema, possibilidade de expansão (facilidade de inclusão de novas
palavras e regras gramaticais pelo usuário) e abrangência (capacidade de
especialização do sistema aos domínios de interesse) (Hovy et al, 2002).
Em relação aos objetivos da avaliação, a literatura identifica três categorias
principais (Oliveira et al, 2000; Maia&Barreiro, no prelo): avaliação de
diagnóstico, de desempenho e de adequação. A avaliação de diagnóstico procura
identificar as limitações, os erros e as deficiências dos sistemas; a avaliação de
desempenho analisa seus estágios de desenvolvimento; e a avaliação de
adequação procura determinar se o sistema atende a determinados contextos
operacionais. As avaliações de diagnóstico e de desempenho costumam ser
realizadas por pesquisadores e fabricantes, enquanto a avaliação de adequação
geralmente é feita por usuários.
Em termos de metodologia, a avaliação pode ser interna (blackbox, ou caixa
preta), com acesso ao funcionamento interno do programa, ou externa (glassbox,
ou caixa de vidro), com acesso somente ao texto original e ao texto traduzido. A
PUC-Rio - Certificação Digital Nº 0410515/CA
38
avaliação externa é a mais comum, dado que o acesso aos componentes dos
sistemas é restrito aos fabricantes. Em ambos os casos, a avaliação pode ser
automática, baseada em algoritmos, ou humana, realizada por usuários leigos (que
não sejam da área de linguagem nem tradutores) ou por lingüistas, tradutores ou
fabricantes de software.
A avaliação externa, como não tem acesso aos componentes do programa,
normalmente se concentra na qualidade da tradução. Segundo Sarmento et al (no
prelo) essa qualidade é geralmente determinada de acordo com os seguintes
critérios: em função do objetivo, em comparação com traduções humanas, por
correção formal e em função do esforço de pós-edição. Em relação à determinação
da qualidade em função do objetivo, o exemplo apresentado é o de um usuário que
recorre à TA para encontrar a definição de um termo num website, num idioma
que ele não domina. Caso o usuário encontre a definição e a compreenda, a TA
poderá ser considerada de qualidade. Os próprios autores observam que essa
noção de qualidade é bastante limitada, não apenas porque envolve a capacidade
do usuário de lidar com o sistema, mas também porque mesmo um sistema que
utilizasse o método de tradução palavra por palavra poderia atender a esse
objetivo específico, sem, no entanto, poder ser considerado um programa de
qualidade em termos mais abrangentes. Além disso, esse critério dificultaria a
comparação dos resultados de vários programas simultaneamente.
Já sobre o critério de comparação da tradução gerada automaticamente com
traduções humanas, os autores comentam duas principais dificuldades para sua
implementação prática: a primeira seria como determinar a distância aceitável
entre os textos traduzidos, especialmente considerando-se as várias possibilidades
de tradução para uma mesma frase ou segmento de texto. A segunda dificuldade é
de ordem financeira, já que seria necessário construir um corpus de referência
com várias traduções humanas dos textos a serem utilizados nos testes para
comparação, o que implicaria custos muito elevados para que o corpus fosse
realmente abrangente. Alguns métodos automáticos de avaliação utilizam métricas
para a medição da distância entre as frases, como o padrão BLEU, descrito em
Papineni et al (2001, apud Sarmento et al, no prelo).
A qualidade em relação à correção formal é avaliada em termos de
morfologia, léxico e sintaxe. Uma das principais falhas está no fato de o aspecto
PUC-Rio - Certificação Digital Nº 0410515/CA
39
semântico geralmente ser desconsiderado, apesar de ser um dos principais
problemas para a TA. Esse tipo de avaliação normalmente toma como base uma
categorização de erros pré-definida. Por um lado, esse método representa
vantagens em termos de sistematização, possibilidade de comparação entre vários
sistemas e análises específicas por tipo de erro, mas, por outro lado, depende da
complexa tarefa de elaboração de uma categorização rigorosa, voltada para erros
exclusivamente de TA. Essa categorização, por sua vez, depende da coleta e da
análise de grandes quantidades de dados e é dificultada pela natureza não estanque
dos erros, que podem ter causas diferentes e podem ser observados de vários
pontos de vista, como veremos nas tipologias propostas para o português na seção
3.3. Outras dificuldades são o fato de a categorização precisar lidar com duas
línguas diferentes (alvo e fonte) e a determinação, de caráter subjetivo, da
gravidade de cada erro. Por fim, os autores observam que, para a viabilidade da
avaliação em termos de correção formal, a categorização deveria ser elaborada por
pesquisadores com formação em lingüística, tradução humana e tradução
automática, não havendo ainda muitos profissionais com esse perfil mais
diversificado.
O último critério de determinação de qualidade apresentado em Sarmento et
al (no prelo) é em função da pós-edição. De acordo com a definição de Allen
(2003), pós-edição é o “termo usado para a correção do produto da tradução
automática por revisores ou lingüistas humanos” (nossa tradução)
2
. Dessa forma,
quanto menos correções forem necessárias na pós-edição, melhor será a qualidade
do sistema. Apesar de ter implicações teóricas para a avaliação de mais de um
sistema, como problemas de julgamentos subjetivos de cada revisor em relação ao
que deve ser corrigido em cada texto, no mercado de localização esse pode ser um
critério muito eficiente. Os padrões de qualidade desejados para o texto final já
serão conhecidos, pois provavelmente serão os mesmos já empregados para a
tradução humana. A qualidade da TA, então, poderá ser medida em termos de
tempo e custo. Se, para atingir a mesma qualidade final, o tempo dedicado ao
processo de TA e à pós-edição for inferior ao tempo gasto com o processo de
tradução e revisão humanas, então o sistema de TA poderá ser uma boa opção.
2
“[Post-editing is the] term used for the correction of machine translation output by human
linguists/editors.”
PUC-Rio - Certificação Digital Nº 0410515/CA
40
Ainda que o tempo seja igual ou um pouco superior, o uso do tradutor automático
pode se justificar em termos de redução de custo ou retorno do investimento no
sistema, já que não haverá o custo da etapa de tradução.
Voltando aos métodos de avaliação, Hovy et al (2002) descrevem a tradução
reversa (back translation) como um dos mais antigos. Nesse método, uma frase é
traduzida para outra língua e depois traduzida novamente para a língua-fonte, para
uma comparação com a frase original. Segundo os autores, esse é um método
muito pouco sistemático e que dificulta a comparação entre sistemas. Uma
implementação desse método para o português é o Boomerang, da Linguateca,
descrito em Sarmento (no prelo). Sarmento argumenta que o método pode ser útil
para identificar os tipos de estruturas que representam mais dificuldade para o
sistema e aqueles com as quais o sistema já lida melhor, por exemplo. Apesar de o
projeto ter sido interrompido, a ferramenta continua disponível no endereço
eletrônico http://poloclup.linguateca.pt/ferramentas/boomerang/ (último acesso
em 20 de março de 2006).
Mais adiante neste capítulo, discutiremos três estudos elaborados
especificamente para o português. Antes, porém, vale notar que eles se
concentram nas questões lingüísticas e, como argumentam os pesquisadores do
FEMTI, a consideração do contexto de uso é fundamental para a avaliação.
Portanto, para fazer uma avaliação mais abrangente da utilização da TA no
contexto do mercado de localização, adotamos a classificação proposta no
FEMTI.
3.2.
A proposta de avaliação do FEMTI
O objetivo do projeto FEMTI é sistematizar os vários métodos de avaliação
de TA existentes considerando também as normas ISO/IEC para avaliação de
qualidade de software. Como vimos, seu principal diferencial é considerar o
contexto de uso do sistema, o que é especialmente relevante no nosso estudo de
caso.
Com base nos vários métodos e nas normas ISO/IEC, foi elaborada uma
taxonomia bastante extensa, que refina muitos dos aspectos gerais de avaliação
PUC-Rio - Certificação Digital Nº 0410515/CA
41
apresentados na seção anterior. Em relação aos objetivos da avaliação, por
exemplo, a taxonomia apresenta sete diferentes possibilidades: Avaliação de
viabilidade, Explicitação das necessidades, Avaliação interna, Avaliação
diagnóstica, Avaliação declarativa, Avaliação operacional e Avaliação de
utilidade.
A taxonomia está dividida em duas partes. A primeira, Requisitos da
avaliação, tem como objetivo auxiliar avaliadores, pesquisadores e fabricantes a
definir o contexto de uso. De acordo com essa definição, são indicadas as
categorias a serem avaliadas na segunda parte, intitulada Características do
sistema a serem avaliadas. Por exemplo, se na parte 1 ficar definido que o objetivo
da avaliação é verificar a viabilidade do sistema, as duas categorias a serem
avaliadas na parte 2 serão Consideração dos aspectos específicos ao corpus e
Precisão. Dentro de cada categoria são apresentadas várias métricas usadas na
comunidade científica para avaliação daquele determinado aspecto. O projeto é
descrito de forma mais detalhada em Hovy et al (2002).
O FEMTI representa um grande avanço em termos de sistematização, com
um alto nível de detalhamento. Outra grande contribuição do projeto é mostrar
que o conceito de qualidade depende diretamente do contexto de utilização. Como
observam os autores, assim como não faz sentido perguntar Qual é a melhor
casa?, não faz sentido perguntar Qual é o melhor tradutor automático?. “Até
mesmo um sistema de baixa qualidade pode ser útil, ou mesmo ideal, nas devidas
circunstâncias” (Hovy et al, 2002:43, nossa tradução
3
). A relação entre contexto
de uso e qualidade fica clara na definição das normas ISO/IEC: qualidade é “a
totalidade dos recursos e características de um produto ou serviço que estão
relacionados à sua capacidade de satisfazer as necessidades explícitas e
implícitas” (ISO/IEC, 1991:2, apud Hovy et al, 2002, nossa tradução
4
).
Para avaliar o contexto, a proposta inclui categorias voltadas para as
características da tarefa tradutória, do público-alvo (consumidor da tradução), do
usuário da TA e do tipo de texto e de autor. Em relação ao software, são
3
“...even poor MT can be useful, or even ideal, in the right circumstances.”
4
“the totality of features and characteristics of a product or service that bear on its ability to satisfy
stated or implied needs.”
PUC-Rio - Certificação Digital Nº 0410515/CA
42
consideradas as características específicas e externas do sistema, como os recursos
disponíveis, a funcionalidade e os custos envolvidos.
Por questões de espaço e praticidade, apresentaremos apenas a tradução das
categorias, sem as definições. As definições detalhadas, bem como as métricas
sugeridas para avaliação, os agentes envolvidos em cada etapa e as referências
bibliográficas para cada categoria podem ser encontradas on-line em inglês no
endereço http://www.issco.unige.ch/projects/isle/femti/. Como comentado no
website, essa é uma taxonomia “em construção”, ainda incompleta e em constante
atualização com base nos comentários dos usuários.
CLASSIFICAÇÃO DO FEMTI
1 REQUISITOS DA AVALIAÇÃO
1.1 Propósito da avaliação
1.1.1 Avaliação de viabilidade
1.1.2 Explicitação das necessidades
1.1.3 Avaliação interna
1.1.4 Avaliação diagnóstica
1.1.5 Avaliação declarativa
1.1.6 Avaliação operacional
1.1.7 Avaliação de utilidade
1.2 Objeto da avaliação
1.2.1 Um componente do sistema de TA
1.2.2 O sistema de TA em si
1.2.3 O sistema de TA como parte de um sistema mais amplo
1.3 Características da tarefa tradutória
1.3.1 Assimilação
1.3.1.1 Repasse/distribuição de documentos
1.3.1.2 Sumarização/extração de informações
1.3.1.3 Pesquisa
1.3.2 Divulgação
1.3.2.1 Publicação interna
PUC-Rio - Certificação Digital Nº 0410515/CA
43
1.3.2.1.1 Rotineira
1.3.2.1.2 Experimental/pesquisa
1.3.2.2 Publicação externa
1.3.2.2.1 Um tipo de cliente
1.3.2.2.2 Vários tipos de clientes
1.3.3 Comunicação
1.3.3.1 Síncrona
1.3.3.2 Assíncrona
1.4 Características dos usuários
1.4.1 Usuário da TA
1.4.1.1 Formação
1.4.1.2 Proficiência na língua-fonte
1.4.1.3 Proficiência na língua-alvo
1.4.1.4 Familiaridade com o computador
1.4.2 Consumidor da tradução
1.4.2.1 Proficiência na língua-fonte
1.4.2.2 Proficiência na língua-alvo
1.4.3 Usuário corporativo
1.4.3.1 Volume de tradução
1.4.3.2 Tamanho da equipe
1.4.3.3 Tempo disponível para a tradução
1.5 Características da entrada (autor e texto)
1.5.1 Tipo de documento
1.5.1.1 Gênero
1.5.1.2 Domínio/campo de aplicação
1.5.2 Características do autor
1.5.2.1 Proficiência na língua-fonte
1.5.2.2 Treinamento profissional
1.5.3 Características relacionadas às fontes de erros
1.5.3.1 Fontes de erros intencionais
1.5.3.2 Fontes de erros relacionadas à mídia
1.5.3.3 Erros relacionados ao desempenho
2. CARACTERÍSTICAS DO SISTEMA A SEREM AVALIADAS
PUC-Rio - Certificação Digital Nº 0410515/CA
44
2.1 Características específicas do sistema de TA
2.1.1 Modelos de processo de tradução
2.1.1.1 Metodologia
2.1.1.1.1 Modelos baseados em regras
2.1.1.1.2 Modelos baseados em estatística
2.1.1.1.3 Modelos baseados em exemplos
2.1.1.1.4 Modelos com memória de tradução
2.1.1.2 Modelos
2.1.1.2.1 Direto
2.1.1.2.2 Transferência
2.1.1.2.3 Interlíngua
2.1.2 Recursos lingüísticos
2.1.2.1 Idiomas
2.1.2.2 Dicionários
2.1.2.3 Listas de palavras, glossários
2.1.2.4 Corpora comparáveis e paralelos
2.1.2.5 Gramáticas
2.1.3 Características do processo
2.1.3.1 Atividades de preparação da tradução
2.1.3.2 Atividades posteriores à tradução
2.1.3.3 Atividades interativas
2.1.3.4 Atualização do dicionário
2.1.3.5 Gerenciamento do processo
2.2 Características externas do sistema
2.2.1 Funcionalidade
2.2.1.1 Adequação
2.2.1.1.1 Somente língua-alvo
2.2.1.1.1.1 Legibilidade (ou fluência,
compreensibilidade, clareza)
2.2.1.1.1.2 Inteligibilidade
2.2.1.1.1.3 Coerência
2.2.1.1.1.4 Coesão
2.2.1.1.2 Contrastivo/interlingual
PUC-Rio - Certificação Digital Nº 0410515/CA
45
2.2.1.1.2.1 Consideração dos fenômenos
específicos ao corpus
2.2.1.1.2.2 Estilo
2.2.1.2 Precisão
2.2.1.2.1 Fidelidade
2.2.1.2.2 Uniformidade
2.2.1.2.3 Terminologia
2.2.1.3 Boa formação
2.2.1.3.1 Pontuação
2.2.1.3.2 Léxico/escolha lexical
2.2.1.3.3 Gramática/sintaxe
2.2.1.3.4 Morfologia
2.2.1.4 Interoperabilidade
2.2.1.5 Conformidade
2.2.1.6 Segurança
2.2.2 Confiabilidade
2.2.2.1 Maturidade
2.2.2.2 Tolerância a falhas
2.2.2.3 Freqüência de travamento
2.2.2.4 Facilidade de recuperação
2.2.2.5 Conformidade em relação à confiabilidade
2.2.3 Facilidade de uso
2.2.3.1 Facilidade de compreensão
2.2.3.2 Aprendizagem
2.2.3.3 Operabilidade
2.2.3.4 Documentação
2.2.3.5 Atratividade
2.2.3.6 Conformidade em relação à facilidade de uso
2.2.4 Eficiência
2.2.4.1 Rapidez
2.2.4.1.1 Tempo de pré-processamento
2.2.4.1.1.1 Tempo de pré-edição
2.2.4.1.1.2 Conversão de códigos
PUC-Rio - Certificação Digital Nº 0410515/CA
46
2.2.4.1.1.3 Tempo de preparação
2.2.4.1.2 Velocidade de tradução (entrada e
saída)
2.2.4.1.3 Tempo de pós-processamento
2.2.4.1.3.1 Tempo de pós-edição
2.2.4.1.3.2 Conversão de códigos
2.2.4.1.3.3 Tempo de atualização
2.2.4.2 Utilização de recursos
2.2.4.2.1 Memória
2.2.4.2.2 Léxico
2.2.4.2.3 Limpeza dos arquivos
2.2.4.2.4 Tamanho do programa
2.2.5 Facilidade de manutenção
2.2.5.1 Analisibilidade
2.2.5.2 Flexibilidade
2.2.5.2.1 Facilidade de atualização de aspectos
multilíngües do sistema
2.2.5.2.2 Capacidade de aprimoramento
2.2.5.2.3 Facilidade de atualização do dicionário
2.2.5.2.4 Facilidade de alteração das regras
gramaticais
2.2.5.3 Estabilidade
2.2.5.4 Testabilidade
2.2.5.5 Conformidade em relação à facilidade de
manutenção
2.2.6 Portabilidade
2.2.6.1 Adaptabilidade
2.2.6.2 Facilidade de instalação
2.2.6.3 Conformidade em relação à portabilidade
2.2.6.4 Facilidade de substituição
2.2.6.5 Coexistência
2.2.7 Custo
2.2.7.1 Custo inicial
PUC-Rio - Certificação Digital Nº 0410515/CA
47
2.2.7.2 Custo de manutenção
2.2.7.3 Outros custos
3.3.
Três estudos sobre avaliação para o português
Apesar de incluir categorias para a avaliação lingüística, foge ao escopo da
taxonomia do FEMTI apresentar tipologias ou critérios de avaliação para uma
língua em particular. Para complementar a taxonomia com dados específicos do
português, recorremos a três fontes: a dissertação de mestrado de Carmen Dayrell,
intitulada Sistemas de Tradução Automática: Avaliação e Propostas de Melhoria
(Dayrell, 1999), um estudo do NILC (Núcleo Interinstitucional de Lingüística
Computacional) relatado no artigo “A critical analysis of the performance of
English-Portuguese-English MT systems” (Oliveira et al, 2000) e o projeto
TrAva, desenvolvido pela Linguateca, em Portugal, e descrito nos artigos
“Ferramentas para experimentação, recolha e avaliação de exemplos de tradução
automática” (Sarmento, no prelo) e em “Uma experiência de recolha de exemplos
classificados de tradução automática de inglês para português” (Maia&Barreiro,
no prelo). Daqui em diante, os trabalhos serão referidos como “Dayrell“,
“Oliveira et al”, ” e “TrAva”.
Como os problemas de qualidade da tradução automática ainda são muito
variados e complexos, consideramos especialmente relevante apresentar as
discussões dessas avaliações para o português. Como elas indicam problemas
lingüísticos que também ocorrem com o tradutor automático que avaliaremos no
capítulo 4, seus resultados podem ser aplicados para a melhoria de vários aspectos
do programa, sendo complementares aos nossos resultados mais especificamente
voltados para o mercado de localização.
Oliveira et al e o TrAva fazem uma avaliação externa (ou seja, sem acesso
ao funcionamento do programa, levando em consideração somente o texto original
e a tradução gerada pelo programa). Já Dayrell faz uma avaliação híbrida, com
acesso a parâmetros do programa para implementar e testar soluções para alguns
problemas. Os três estudos recorrem a vários tradutores automáticos.
Em todos os casos, o enfoque é estritamente lingüístico (principalmente
morfológico, lexical e sintático e, no caso de Oliveira et al, também semântico-
PUC-Rio - Certificação Digital Nº 0410515/CA
48
pragmático), não envolvendo questões contextuais como aquelas discutidas sobre
o FEMTI na seção anterior.
Devido à variedade e à quantidade de erros, todas as análises se concentram
no nível da frase ou da oração, sem considerar o nível discursivo ou fatores
extralingüísticos. A esse respeito, Sarmento (no prelo) argumenta ainda que “o
limite de cinco palavras pode ser considerado aceitável, tendo em conta que a
tecnologia actual de TA que consultámos parece operar apenas sobre estruturas de
duas ou três palavras, raramente analisando a frase como um todo”. Vejamos, a
seguir, os principais aspectos de cada um dos estudos.
3.3.1.
Aspectos gerais dos estudos
Programas avaliados
Os tradutores automáticos avaliados foram:
Dayrell - Globalink, TraduzTudo, Transcend, A.R.T. e Systran (acesso
disponível na Web. No caso dos sistemas comerciais, foram utilizadas as
versões de demonstração gratuitas oferecidas na Web.);
Oliveira et alTranslatorPro e Tradunet (vendidos comercialmente na
época da análise) e Alta Vista, Intertran, GO Translator e Enterprise
Translator Server (disponíveis na Web);
TrAva - FreeTranslation, Systran, E-T Server e Amikai (acesso disponível
na Web. No caso dos sistemas comerciais, foram utilizadas as
demonstrações gratuitas oferecidas na Web.).
Apesar das diferenças de nomenclatura, observamos que alguns dos
sistemas parecem se repetir, como o E-T Server, que supomos ser o mesmo que
Enterprise Translator Server, e o TranslatorPro, possivelmente o mesmo que
Globalink TranslatorPro. O Alta Vista, disponível na Web, é baseado no Systran.
Aparentemente, todos os sistemas são baseados no método de tradução indireta
por transferência, à exceção do Intertran, que parece adotar o método de tradução
direta, palavra por palavra.
PUC-Rio - Certificação Digital Nº 0410515/CA
49
Direção
Vários desses tradutores automáticos oferecem a possibilidade de tradução
entre vários pares de idiomas, mas os três estudos utilizam somente o inglês e o
português.
Dayrell e TrAva analisam somente traduções na direção inglês-português,
enquanto Oliveira et al avaliam também a direção português-inglês.
Objetivos
Os três estudos partem de um objetivo comum, o levantamento de
problemas de TA envolvendo português, mas assumem enfoques específicos
bastante variados.
Enquanto Dayrell tem o objetivo pragmático de promover a melhoria efetiva
dos programas, inclusive propondo soluções para os erros encontrados, Oliveira et
al e o TrAva demonstram ter uma preocupação mais teórico-conceitual, com a
finalidade de tomar os dados como base para uma maior compreensão do
funcionamento e dos desafios da TA.
De acordo com os autores, os objetivos são:
1. Dayrell
“O objetivo deste trabalho é avaliar o desempenho de cinco sistemas de tradução
automática, na tradução do inglês para o português, e propor algumas soluções
possíveis de ser implementadas, visando à melhoria dos sistemas”. (Dayrell,
1999:1)
2. Oliveira et al
“[...] primeiramente analisamos o desempenho dos sistemas na tradução de trechos
de jornais de inglês para português e vice-versa. Além de identificar as principais
limitações, discutimos por que tais limitações existem e as classificamos segundo o
processamento automático de informações lexicais, sintáticas e semântico-
pragmáticas” (Oliveira et al 2000, nossa tradução
5
).
5
“...we first analyze several systems’ performances in translating newspaper excerpts from
English into Portuguese and vice-versa. Besides identifying their main limitations, we discuss why
such limitations exist and classify them according to automatic processing of lexical, syntactic, and
semantic-pragmatic information”.
PUC-Rio - Certificação Digital Nº 0410515/CA
50
3. TrAva
“Durante este período de experimentação com o METRA, acabou por parecer
oportuno desenvolver algumas funcionalidades que permitissem não só observar os
fenómenos associados à TA, mas também compilá-los, organizá-los e categorizá-
los sistematicamente [...] [a fim de] proporcionar uma boa base para estudos mais
aprofundados sobre TA e sua avaliação. [...] ajudaria também a estimar, ainda que
empiricamente, o tipo de erros mais frequentes e quais os casos que os originam
(Sarmento, no prelo, nosso grifo).
Abrangência
Enquanto Dayrell e Oliveira et al fazem uma análise pontual, partindo de
traduções concluídas de textos relativamente pequenos para identificar algumas
limitações dos sistemas, o projeto TrAva é uma iniciativa contínua disponível na
Web, com enfoque principalmente na coleta de grandes volumes de dados sobre
erros de TA para posterior análise.
Assim, Dayrell e Oliveira et al têm menor abrangência porque trabalham
com dados mais limitados, avaliados por uma equipe reduzida, mas, por outro
lado, já apresentam os resultados de suas análises. O TrAva, por sua vez, pretende
recolher uma grande quantidade de dados, introduzidos e classificados por todos
os avaliadores que desejarem contribuir com o projeto. As frases já classificadas
estão reunidas no corpus CorTA, disponível na Web. Uma análise de dados do
TrAva com fins pedagógicos é apresentada em Maia&Barreiro (no prelo).
Tipos de textos e tamanho dos corpora
Em termos de extensão do material, O TrAva reúne apenas frases com no
máximo cinco palavras, para simplificar a classificação dos erros pelos usuários.
Oliveira et al compilaram um corpus com 20 trechos de jornal. No caso de
Dayrell, foram utilizados dois textos completos, de aproximadamente uma página
cada um.
Vale observar que a extensão e a unidade textuais não são consideradas
pelos programas analisados. Como afirma Sarmento (no prelo), “...foi possível
verificar que, mesmo ao nível da frase, os serviços de TA desprezavam a
informação de contexto, executando traduções aparentemente ao nível de
conjuntos de uma ou duas palavras apenas”. Pelos resultados, podemos considerar
PUC-Rio - Certificação Digital Nº 0410515/CA
51
que essa seja uma característica dos sistemas utilizados nos outros estudos
também.
Em termos de linguagem, os três estudos têm em comum o fato de
empregarem textos considerados de linguagem geral, à exceção de um dos textos
de Dayrell, como veremos adiante. Oliveira et al e o TrAva afirmam que os
sistemas estão voltados para a linguagem mais geral, sobretudo aqueles
disponíveis on-line, que podem ser utilizados para fins muito variados e não
oferecem recursos para linguagem especializada, como dicionários técnicos, por
exemplo. Como afirmam Maia&Barreiro (no prelo): “...pensamos que começar
com a linguagem geral é a escolha mais apropriada, [...] porque os programas de
TA online estão preparados para fins relativamente genéricos”.
Já no caso de Dayrell, um dos objetivos secundários era confirmar a
hipótese de que os sistemas apresentam um desempenho melhor com linguagem
especializada, num domínio mais restrito. Por isso, a autora optou por usar dois
textos, com assuntos, registros e estilos diferentes, sendo um de linguagem mais
geral e o outro de linguagem mais especializada. O primeiro texto de Dayrell foi
retirado de uma revista feminina, tendo como tema o relacionamento humano. Já
o segundo texto apresenta linguagem um pouco mais técnica, da área de
lingüística, sobre tradução automática.
Segunda a autora, o primeiro texto é mais informal e emprega uma
linguagem mais geral, enquanto o segundo utiliza uma linguagem mais restrita,
com terminologia específica de lingüística e com menos variedade de estruturas
sintáticas e itens lexicais.
Dos 20 trechos de jornal selecionados por Oliveira et al, dez estavam em
português, retirados do jornal Folha de São Paulo e dez estavam em inglês,
extraídos do The New York Times. As seções escolhidas foram editoriais,
noticiário nacional e internacional e cartas de leitores.
No caso do TrAva, não há controle das frases introduzidas pelos usuários. A
única recomendação é que sejam usadas frases originalmente escritas em inglês,
sendo sugerida a utilização do BNC (British National Corpus).
PUC-Rio - Certificação Digital Nº 0410515/CA
52
Os parâmetros de avaliação
Os três estudos realizam avaliações humanas. No caso do TrAva, os
avaliadores são os vários usuários do sistema. Em Oliveira et al, aparentemente os
próprios pesquisadores fizeram as avaliações nos níveis lexical e sintático. No
nível semântico-pragmático, como o enfoque era a inteligibilidade dos trechos
traduzidos automaticamente, sem pós-edição nem consulta aos textos originais, os
pesquisadores recorreram a outros avaliadores humanos não envolvidos na
pesquisa. O artigo não apresenta mais informações sobre os avaliadores. Já a
avaliação de Dayrell aparentemente foi feita pela própria equipe envolvida na
pesquisa.
Critérios de classificação
Assim como os desafios em TA, os critérios para abordá-los são muitos e
muito variados entre si. Provavelmente por isso, as pesquisas assumem um caráter
bastante empírico, em que os dados praticamente determinam as questões
lingüísticas a serem pesquisadas e muitas vezes o próprio embasamento teórico
mais adequado para analisá-los.
Em Dayrell, no TrAva e na nossa própria análise, que será apresentada no
capítulo 4, as categorias foram determinadas a partir dos erros observados,
procurando agrupá-los. Já em Oliveira et al, parece ter havido uma pré-seleção de
alguns aspectos gerais a serem observados, mas as categorias de erros sintáticos
foram criadas com base nos erros identificados na própria avaliação. Parece haver
um consenso quanto às macrocategorias, estando todas as análises divididas em
questões lexicais e morfológicas e questões sintáticas. Oliveira et al acrescentam
ainda o aspecto semântico-pragmático.
Já em relação às subcategorias, a divisão não é tão consensual. As variações
entre os erros analisados e a dificuldade de determinar precisamente uma única
categoria para cada um tornam a tarefa bastante complicada. Há também a
dificuldade de determinar se as categorias serão baseadas nos erros da frase
traduzida, nas características da língua-fonte ou ainda no próprio processo
tradutório.
PUC-Rio - Certificação Digital Nº 0410515/CA
53
Dayrell parte dos dados para identificar 15 categorias de erros, que serão
descritas na próxima seção. Como na época a autora não teve acesso a categorias
de erros especificamente voltados para a tradução automática, ela tomou a
descrição de erros de tradução humana de Mona Baker (1992, apud Dayrell,
1999) como base teórica para analisar os erros.
Já para o TrAva, o fato de os erros de TA muitas vezes não estarem
relacionados a erros humanos fez com que as categorias fossem definidas a partir
da observação apenas de erros de TA. A principal diferença em relação aos outros
projetos é que a quantidade de dados observados para a definição das categorias
foi muito mais expressiva, o que possibilitou a criação de uma categorização
muito mais abrangente e detalhada. Em linhas gerais, ela adota as classes
estabelecidas pela gramática tradicional, acrescentando algumas mais específicas
do processo tradutório, como “resolução incorrecta do POS-homógrafo” para dar
conta do problema da homografia, por exemplo.
Diferentemente dos outros estudos, as análises dos dados do TrAva
apresentadas em Maia&Barreiro (no prelo) não se iniciaram a partir dos textos,
devido à própria natureza do sistema. Nesse caso, alunos do curso de mestrado em
tradução escolheram arbitrariamente uma das categorias preestabelecidas no
sistema para então analisar as frases que haviam sido classificadas sob aquela
categoria.
No caso de Oliveira et al, aparentemente houve uma seleção prévia de
algumas questões já sabidamente problemáticas para TA. Para a análise lexical, as
questões foram: dicionarização, homonímia, conotação e expressões. Para a
análise sintática, o enfoque foi a capacidade do programa de recuperar as relações
de dependência da frase original e preservá-las para possibilitar a interpretação da
tradução gerada. Com esse enfoque, foram identificadas 11 categorias de
problemas sintáticos, que serão apresentadas na próxima seção.
Como comentamos, além das macrocategorias “léxico e morfologia” e
“sintaxe”, o estudo de Oliveira et al inclui um terceiro nível de análise, com um
enfoque semântico-pragmático. Nessa categoria, são consideradas duas
perspectivas: co-referencialidade e interpretabilidade das frases traduzidas.
PUC-Rio - Certificação Digital Nº 0410515/CA
54
3.3.2.
Categorias de erros
Tomando como base os critérios apresentados na seção 3.3.1, os estudos
estabeleceram as categorias de erros apresentadas a seguir.
3.3.2.1.
As categorias de Dayrell
Dayrell identificou 15 tipos de erros e agrupou-os nas categorias “Erros
primários” e “Erros devidos a problemas tradutológicos”.
Foram considerados erros primários aqueles não relacionados diretamente às
dificuldades do processo tradutório, estando ligados à lexicografia ou a erros de
programação do tradutor automático “causados pela implementação incorreta, ou
não implementação, de regras gramaticais, inclusão incorreta do dicionário, ou
pela má elaboração do programa” (Dayrell, 1999:79). Nessa categoria foram
incluídas as questões que se seguem. Para todas as categorias, selecionamos
aleatoriamente exemplos dentre as traduções dos vários programas utilizados.
Incluímos as traduções sugeridas pela autora apenas quando consideramos que o
erro não era óbvio e dependia de contexto:
1. dicionário incorreto – Exemplo: “would” correspondendo
somente a “poder” e “rather” correspondendo somente a
“melhor”
2. item mantido na língua-fonte (por não constar no dicionário) –
Exemplo: “jealous”
3. formação lexical e ortografia – Exemplo: “confiançamente” e
“exijiu”
4. formatação e acentuação – Exemplo: “nao”
Já a categoria “Erros devidos a problemas tradutológicos” inclui
dificuldades do processo tradutório. As questões identificadas foram analisadas de
acordo com a classificação de erros de tradução humana de Mona Baker (1992,
apud Dayrell, 1999).
A primeira categoria de Mona Baker selecionada foi a “não equivalência
lexical”. Nela foram incluídos os seguintes tipos de erros:
PUC-Rio - Certificação Digital Nº 0410515/CA
55
5. ambigüidade lexical – Exemplo: “split”, traduzido como
“divisão” enquanto a tradução sugerida foi “separação”
6. expressões – Exemplo: “how come” traduzido como “como
vem”
7. inadequação estilística – Exemplo: “jealous” traduzido como
“cioso”
8. inclusão de itens (itens que ficaram faltando na tradução) –
Exemplo:
Original: “let’s call him Dave”
TA: “chamemos o Dave”
9. exclusão de itens (itens que deveriam ter sido excluídos da
tradução) - Exemplo:
Original: “It was your decision to end it”
TA: “Era sua decisão [para] terminar”
Na segunda categoria de Baker, “erros lexicais causados por erros
gramaticais”, foi incluído o seguinte tipo de erro:
10. classe gramatical
Exemplo:
Original: “why not try”
TA: “Porque não tentativa”
A terceira categoria de Baker era “não equivalência gramatical”. Nesse caso,
Dayrell organizou os cinco tipos de erros restantes dentro das subcategorias de
Baker, a saber: gênero e número, pessoa, sistema verbal, voz, ordem das palavras
e estruturas incompatíveis. A autora procurou fazer uma correspondência entre os
erros identificados e essas subcategorias de Baker, da seguinte forma:
11. concordância (que exemplifica a subcategoria “gênero e
número”)
Exemplo:
Original: “she was so angry”
TA: “foi ela assim zangado
12. pronome incorreto (subcategoria “pessoa”)
PUC-Rio - Certificação Digital Nº 0410515/CA
56
Exemplo:
Original: “...made any sense to me”
TA: ”qualquer sentido para me
13. sistema verbal
Exemplo (modal would seguido de verbo sempre traduzido
como futuro do pretérito simples):
Original: “Some would claim...”
TA: ”Alguns reivindicariam...”
Tradução sugerida: “alegavam”
14. ordem das palavras
Exemplo (distribuição de adjetivo):
Original: “the new man in”
TA: ”O homem novo em”
15. estruturas incompatíveis
Exemplo:
Original: “the early 1980s”
TA: ”os cedo 1980s”
Na discussão da subcategoria “voz”, Dayrell inclui exemplos discutidos na
categoria “sistema verbal”. Todas as categorias são detalhadamente discutidas
pela autora, sendo apresentados e comentados todos os exemplos diferentes de
cada categoria. O estudo propõe ainda soluções para cada problema
especificamente.
3.3.2.2.
As categorias de Oliveira et al
As categorias de Oliveira et al foram organizadas nos níveis lexical,
sintático e semântico-pragmático.
No nível lexical, as categorias selecionadas para análise foram
dicionarização, homonímia, conotação e expressões.
1. Dicionarização - os principais problemas encontrados foram:
a) reconhecimento de nomes próprios e nomes deles derivados -
Exemplo de termo mantido em inglês: “Hungarian”. Exemplo
PUC-Rio - Certificação Digital Nº 0410515/CA
57
de termo traduzido indevidamente: “World Trade Center”,
traduzido como “Centro de Comércio Mundial”
b) relações do dicionário – Exemplo: “Páscoa” traduzido como
“Passover” em vez de “Easter”
c) flexão – inclusão de formas flexionadas como uma entrada
separada do dicionário. Exemplo: “tradicionais”.
2. No caso da homonímia, são discutidas as alterações de classe
gramatical e as variações dentro de uma mesma classe.
a. alteração de classe gramatical
Exemplo:
Original: “São Paulo”
TA: “are Paulo”
b. Variação de significado na mesma classe gramatical
(palavra ever)
Exemplo:
Original: “Hungary has ceded more
sovereignty than many other nations –
including the United States – would ever
consider”
TA: “sempre”
3. Conotação - relacionada ao uso específico de palavras ou
expressões em um contexto cultural.
Exemplo (expressão “pegar carona”):
Original: “Os comerciantes pegaram carona na
celebração de Páscoa e rechearam suas vitrines
com topo tipo de opções de presentes”
TA: “hitchhike”
4. Expressões - significado do todo não corresponde à soma dos
significados das palavras que as compõem.
O artigo não apresenta exemplos das traduções automáticas das expressões,
mas cita os seguintes exemplos do original: “as far as”, “provided that”, “da
PUC-Rio - Certificação Digital Nº 0410515/CA
58
mesma forma” e “abrir mão de”. Estão incluídos nesta categoria também os
phrasal verbs.
Exemplo de phrasal verb:
Original: “pulled out”
TA: “puxado sem”
Já no nível sintático, o foco era a capacidade dos sistemas de recuperar as
relações de dependência do original para possibilitar a interpretação da oração
traduzida. A esse respeito, são identificados dois problemas: a recuperação das
relações sintáticas entre os itens lexicais e a seleção da relação mais apropriada
dentre aquelas possíveis. Com esse enfoque, foram observados os seguintes tipos
de problemas, seguidos de exemplos (que eram pertinentes no contexto):
1. concordância entre artigo e substantivo: “um retirada”
2. concordância entre substantivo e verbo: “outras nações ia
considerar”
3. emprego de tempo verbal: “had been condemned” em vez de
“were condemned”
4. emprego de preposição: “ao fim de semana”
5. emprego de artigo: “the fraternity”
6. emprego de pronome: “its” em vez de “his”
7. grau comparativo: “more early”
8. falta de preposição: “direito levar armas”
9. falta de artigo: “candidate” em vez de “the candidate”
10. falta de pronome reflexivo: “he controlled” em vez de “he
controlled himself”
11. falta de conjunção: “dizem Senhor Mogilevich contratou” em
vez de ““dizem que Senhor Mogilevich contratou”
Finalmente, na análise semântico-pragmática, o foco de interesse era a
interpretabilidade das frases traduzidas automaticamente, ou seja, se os leitores
conseguiam compreender as traduções geradas pelos sistemas. Os leitores
consideraram as passagens inteligíveis em apenas 30% dos casos para os sistemas
PUC-Rio - Certificação Digital Nº 0410515/CA
59
Alta Vista e Enterprise Translator Server, 20% para o TranslatorPro e o Tradunet
e 10% para o Intertran.
3.3.2.3.
As categorias do TrAva
As categorias elaboradas para o sistema TrAva estão reunidas nas tabelas a
seguir, retiradas de Sarmento (no prelo). A tabela 1 apresenta os aspectos
morfológicos e lexicais. Na tabela 2 são listados os aspectos sintáticos decorrentes
do processo tradutório. Não são apresentados exemplos nas tabelas.
No estudo sobre a aplicação pedagógica do TrAva, Maia&Barreiro (no
prelo) analisam alguns exemplos de erros categorizados com uso da ferramenta,
selecionados pelos alunos do mestrado em tradução. São eles:
1. Homógrafos e polissemia
a. Lexemas polissêmicos, como “run”, “miss” e “play”’
b. Homógrafos terminados em –ing (substantivo, verbo,
adjetivo etc)
c. Sintagmas preposicionais/adverbiais
2. Sintagmas nominais
a. Substantivos pluralizados em posição inicial de frase
b. Sintagmas nominais com mais de um adjetivo
3. Sintagmas verbais
a. verbos modais e semimodais (“had better”, would rather”,
“wonder if”, “would you mind”, “supposed to”,
“need/s/ed/ing” e “have to”, “going to”, “can”)
4. “Lexical bundles”, definido pelas autoras como “combinatórias
lexicais que atravessam as fronteiras sintácticas clássicas” (“I think
that”, “is meant to”)
5. Outros
a. Estruturas interessantes como “to sing the baby to sleep”
b. Vários usos de “any”
c. “Questions tags”
d. There is/are
e. Verbos de emoção como “to be annoyed”
PUC-Rio - Certificação Digital Nº 0410515/CA
60
Tabela 1 – Categorias para classificação dos problemas de morfologia e léxico
do TrAva (Sarmento, no prelo)
Morfologia e Léxico
1. Substantivos
a. Escolha Lexical
b. Plural dos Substantivos
c. Plural dos Substantivos Compostos
d. Grau dos Substantivos
2. Adjectivos
a. Escolha Lexical
b. Plural dos Adjectivos
c. Adjectivos Uniformes
d. Grau dos Adjectivos - Comparativo
e. Grau dos Adjectivos - Superlativo
3. Advérbios
a. Escolha Lexical
b. Grau dos Advérbios - Comparativo
c. Grau dos Advérbios - Superlativo
d. Locuções adverbiais
4. Determinantes
a. Escolha Lexical
b. Artigos
c. Outros Determinantes
5. Pronomes
a. Escolha Lexical
b. P. Pessoais
c. P. Pessoais (Função Sujeito)
d. P. Pessoais (Função Predicativa)
e. P. Pessoais (Função OD)
f. P. Pessoais (Função OI - forma átona)
g. P. Pessoais (Função OI - forma tónica)
h. P. Pessoais (Função Objecto de circunstância)
(continuação)
i. P. Pessoais (Forma combinada OI + OD)
j. P. Possessivos
k. P. Demonstrativos
l. P. Relativos
m. P. Interrogativos
n. P. Indefinidos
6. Numerais
a. Escolha Lexical
b. Cardinais
c. Ordinais
7. Preposições
a. Escolha Lexical
b. Contracção com Artigos
c. Contracção com Pronomes
d. Locuções Prepositivas
8. Verbos
a. Escolha Lexical
b. Tempos Simples
c. Tempos Compostos
d. Modo - poder, dever, ter de/que
e. Voz Passiva
f. Verbos Reflexivos
g. Locuções Verbais
9. Conjunções
a. Escolha Lexical
b. Conjunções Coordenativas
c. Conjunções Subordinadas
d. Locuções Conjuncionais
PUC-Rio - Certificação Digital Nº 0410515/CA
61
Tabela 2 - Categorias para classificação dos problemas de sintaxe do TrAva
(Sarmento, no prelo)
Sintaxe
1. Concordância
a. Género no interior do SN
b. Género entre o N e o Part. Pass.
c. Número no interior do SN
d. Número entre o SN e o Verbo
e. Número entre o N e o Part. Pass.
2. Ordem das Palavras
a. Interior do SN
b. Interior do SV
c. Interior do SP
d. Interior da Oração
e. Interior da Frase
3. Elisão
a. Artigo em início de frase
b. Artigo com nomes próprios
c. Artigo antes de um pronome possessivo
d. Sujeito - Pronome
e. Preposição
4. Coordenação
a. SNs SVs
b. Orações
c. Outra
5. Resolução incorrecta do POS-homógrafo
a. -ing N/V (ex: building, dancing, writing)
b. -ing N/Adj (ex: interesting, lasting)
c. -ing V/Adj (ex: running, loving, working)
d. -ing Adj/Ger_Part. Pres. (ex: promising, following)
e. -ed/-en Adj/V_Part. Pass. (ex: alleged, employed)
f. -ed/-en Adj/V_Pretérito (ex: experienced, broken)
g. -ed V_Pret./V_Part. Pass. (ex: employed, transmitted)
h. Adv/Prep/Subordinador (ex: before)
i. Adv/Subordinador (ex: as)
j. Adj/Adv (ex: early)
k. N/V (ex: fight)
l. V/Adj (ex: narrow)
m. N/Adj (ex: red)
n. N/V/Adj/Adv/Prep (ex: round)
o. N/Adj/Adv (ex: weekly)
p. Prep/V (ex: following)
q. Prep/Adj (ex: opposite)
r. Prep/Adv/Adj (ex: outside)
s. Prep/Subordinador (ex: than)
t. Outra
3.3.3.
Resultados dos estudos
Cada uma dos estudos apresenta muitas conclusões, variando de acordo com
os níveis de análise, os problemas discutidos e os objetivos propostos, não sendo
possível comentar todos eles aqui detalhadamente.
Em relação ao desempenho dos sistemas, Dayrell conclui que o Globalink é
o mais eficiente e o TraduzTudo, o menos eficiente, em termos de quantidade de
erros. Já no caso de Oliveira et al, à exceção do Intertran, o desempenho dos
outros sistemas é considerado similar. A partir da análise das tabelas de
freqüências de erros lexicais, sintáticos e semântico-pragmáticos, podemos
concluir que o TranslatorPro (que supomos ser o mesmo sistema que Dayrell
PUC-Rio - Certificação Digital Nº 0410515/CA
62
chama de Globalink) também foi o mais eficiente, apresentando o menor número
de erros lexicais e sintáticos e o melhor desempenho em termos de
interpretabilidade, no critério semântico-pragmático. O pior desempenho foi do
Intertran, que aparentemente adota o método de tradução palavra por palavra, sem
concordância entre substantivos e adjetivos ou substantivos e verbos, por
exemplo. Como o objetivo do TrAva não é a comparação dos sistemas, não há
comentários a esse respeito nos artigos.
A respeito da linguagem utilizada, Dayrell conclui que os sistemas
apresentam melhor desempenho no texto de linguagem especializada do que na
linguagem geral. A autora afirma que “no momento, a maneira mais provável de
alcançar uma tradução de alta qualidade é através da seleção de um domínio,
controle da linguagem de entrada e personalização do sistema” (Dayrell,
1999:152), o que corrobora uma das estratégias mais adotadas nas pesquisas de
TA recentes (Martins et al, 2004).
O estudo de Oliveira et al aponta três causas principais para os problemas
identificados, as quais consideramos que resumem também algumas conclusões
das outras pesquisas: a primeira delas seria a inexistência de recursos lingüísticos
nos sistemas ou a baixa qualidade daqueles disponíveis, exemplificados pelos
problemas de dicionarização e pelas estratégias de acesso aos dicionários. A
segunda causa seriam hipóteses equivocadas sobre as semelhanças e as diferenças
entre o inglês e o português e sobre as supostas correspondências entre as línguas,
ignorando-se que as estruturas semânticas são dependentes do contexto e da
cultura. A terceira e última causa, que todos comentam ser a mais desafiadora,
seria a própria complexidade do processo tradutório.
Sobre as categorias do TrAva, Maia&Barreiro concluem que a categorização
de acordo com a terminologia sintática não dá conta de vários problemas de
tradução. Além disso, ela exige que o avaliador tenha um grande conhecimento de
lingüística para poder relacionar corretamente os problemas às categorias.
Dentre os problemas mais detalhadamente discutidos nas três pesquisas
estão a homografia e a polissemia, a recuperação das relações de dependência e a
falta de correspondência entre as estruturas de línguas diferentes.
Sobre a homonímia, a pesquisa de Oliveira et al conclui que somente a
dicionarização não é suficiente, sendo necessário desenvolver estratégias de
PUC-Rio - Certificação Digital Nº 0410515/CA
63
seleção entre as várias opções dicionarizadas (desambiguação). Os autores
observam também que essa questão tem implicações em vários níveis, podendo
não afetar tanto o significado da oração se o termo tiver uma posição mais
secundária, mas chegando a comprometer a coerência e a interpretabilidade da
oração caso o item lexical ocupe uma posição mais central, como a de sujeito ou
predicado.
Ainda a respeito da homonímia e da polissemia, tanto as pesquisas do TrAva
(em Maia&Barreiro, no prelo) quanto a de Dayrell apontam como solução a
melhoria do sistema de análise sintática (parsing). Apesar de ser satisfatória para
os casos de homografia entre classes gramaticais diferentes, essa solução não
esgota os problemas de homografia na mesma classe, o que é demonstrado pelo
número crescente de estudos sobre desambiguação lexical (Ide&Véronis, 1998).
Algumas referências para o português sobre esse tema encontram-se nas pesquisas
de Lucia Specia (Specia&Nunes, 2004, e outras publicações disponíveis no
website da pesquisadora: www.kmi.open.ac.uk/people/lucia).
Maia&Barreiro (no prelo) observam ainda que a resolução da polissemia é
ainda mais complexa, exigindo que o sistema reconheça contextos mais amplos
para determinar o significado apropriado.
A respeito das relações de dependência, em geral os autores consideram que
esse ainda seja um problema de difícil resolução e sugerem que alguma estratégia
que leve em consideração o contexto possa ser útil nesse sentido, além do
investimento em maior formalização da análise sintática (Maia&Barreiro, no
prelo) e dos processos de linearização (Oliveira et al, 2000).
Finalmente, a respeito da falta de correspondência entre as línguas, é
interessante observar que praticamente todos os sistemas avaliados são baseados
na tradução indireta por transferência, uma estratégia fundamentada nessa suposta
correspondência. São sugeridas algumas soluções pontuais baseadas nos
dicionários e nas regras gramaticais, mas a conclusão de Oliveira et al parece ser a
mais abrangente: os sistemas baseiam-se em hipóteses errôneas sobre as
semelhanças e as diferenças entre as línguas, sendo necessária uma mudança de
perspectiva no tratamento das particularidades de cada língua.
De modo geral, as três pesquisas confirmam o senso comum sobre o
desempenho dos tradutores automáticos para o português brasileiro: “os sistemas
PUC-Rio - Certificação Digital Nº 0410515/CA
64
disponíveis no mercado não funcionam corretamente e suas traduções raramente
são úteis sem pós-edição ou conhecimento avançado da língua-fonte” (Oliveira et
al, 2000, nossa tradução
6
). As traduções apresentadas confirmam o quadro
descrito por Martins et al (2004, nosso grifo):
“...o resultado é visivelmente desalentador. E os problemas se espalham nas mais
variadas direções: há falta de correspondências nos dicionários bilíngües que
servem às ferramentas; há o clássico problema do tratamento das formas
homônimas e das expressões idiomáticas; há a generalização, para a língua-alvo, de
construções figuradas de validade restrita à língua-fonte; há o problema da ordem
dos itens lexicais na sentença (principalmente no interior dos sintagmas nominais);
há os problemas sintáticos relativos à concordância e à regência; a recuperação de
relações anafóricas e o preenchimento de elipses; etc. O grande desafio da tradução
automática para a língua portuguesa continua sendo, portanto, operar, com razoável
eficácia, não apenas quando o português replica a estrutura do inglês, mas também
nas situações - muito mais comuns, é preciso dizer - em que as duas línguas se
distanciam” (p. 43).
O motivador, contudo, é que, mesmo diante dessas dificuldades, as
pesquisas concluem que a TA é viável e a melhoria do seu desempenho,
plenamente possível:
“...é absolutamente viável aprimorar a qualidade das traduções produzidas
automaticamente, pois muitas deficiências encontradas nos sistemas podem ser
resolvidas imediatamente”. (Dayrell, 1999:153)
“...observamos que os obstáculos não são de forma alguma intransponíveis,
podendo ser facilmente superados se houvesse uma mudança de perspectiva ao
considerar-se as idiossincrasias de cada língua” (Oliveira et al, 2000, nossa
tradução
7
).
Para que tal melhoria seja alcançada, os estudos reconhecem a necessidade
de formalização das línguas e de integração entre as mais diversas áreas:
“No entanto, para que a TA atinja uma qualidade satisfatória, são necessárias
pesquisas não somente na área de tradução automática, como também nas diversas
outras áreas que servem de apoio a elas, tais como a lexicografia, a sintaxe, a
semântica, a pragmática e as ciências cognitivas”. (Dayrell, 1999:153)
6
“[...] the commercially available systems do not work properly, and their outputs are seldom
useful without post-editing or expertise in the source language.”
7
“[...] we observed that the obstacles are not insurmountable at all, they could be easily overcome
if there was a change in perspective when considering the idiosyncrasies of each language.”
PUC-Rio - Certificação Digital Nº 0410515/CA
65
“...o seu desenvolvimento [da pesquisa inicial com o TrAva] provou que este
futuro depende da angariação e organização de uma equipe de linguistas,
tradutores e engenheiros informáticos” (Maia&Barreiro, no prelo).
3.4.
Comentários finais
Neste capítulo, apresentamos alguns dos principais aspectos da avaliação de
tradução automática. A avaliação proposta pelo FEMTI aborda em detalhes
muitos aspectos contextuais do uso de TA. Para aprofundar os aspectos da
avaliação lingüística e reunir questões já discutidas sobre o português,
apresentamos as pesquisas de Dayrell (1999); Oliveira et al (2000) e Sarmento (no
prelo) e Maia&Barreiro (no prelo).
Os problemas de linguagem detalhadamente discutidos e as soluções
sugeridas pelas pesquisas sobre português são fontes de informações úteis não só
para a melhoria efetiva do desempenho dos sistemas, mas também para pesquisas
nas diversas áreas afins, como tradução, processamento de linguagem natural,
semântica, lingüística, lexicografia, ciências cognitivas, inteligência artificial,
entre outras. Uma classificação quantitativa, como as de Dayrell e de Oliveira et
al, pode ser útil para a priorização dos problemas a serem resolvidos, por
exemplo, e o esforço de coleta de grandes quantidades de dados, como pretendido
pelo TrAva, será relevante para a identificação das questões mais recorrentes.
O fato de as três pesquisas se concentrarem em sistemas baseados em
tradução indireta por transferência indica que esse é o método mais utilizado nos
sistemas disponíveis comercialmente e na Web, envolvendo português. Mesmo
estando limitadas a esse tipo de sistema, as pesquisas mostram a diversidade e a
complexidade dos problemas de TA e alguns enfoques possíveis para abordá-los,
além de indicar as possibilidades e limitações desses sistemas.
Concordarmos com Martins&Nunes (2005) quando afirmam que:
a ambigüidade não é um fenômeno periférico e marginal [...] nos enunciados em
língua natural. Ela é constitutiva da própria linguagem, na medida em que todos os
enunciados sofrem de vagueza e de indeterminação, se isolados os índices
contextuais (relativos ao contexto extratextual) e co-textuais (relativos ao contexto
intratextual) que provocam, com freqüência, a ilusão de que os enunciados seriam
exatos e precisos (p. 9).
PUC-Rio - Certificação Digital Nº 0410515/CA
66
Por esse motivo, segundo os autores, a delimitação do domínio e a
elaboração de dicionários e gramáticas não são suficientes para solucionar todas
as questões de ambigüidade na interpretação semântica da língua-fonte e na
geração da língua-alvo. No entanto, como indica o estudo de Dayrell, o
desempenho pode ser melhor com texto de linguagem mais especializada. Assim,
consideramos que pode haver um ganho significativo de qualidade se os
problemas a serem resolvidos na pós-edição, por exemplo, se limitarem àqueles
que sejam mais complexos ou impossíveis de se resolver pela delimitação do
domínio e pelos recursos lingüísticos. Entendemos que a finalidade da delimitação
do domínio seja exatamente reduzir o universo de possibilidades semânticas
dependentes do contexto extratextual.
Mesmo os sistemas voltados para a “linguagem geral”, que pretendam
atender a um público mais amplo, poderiam recorrer a delimitações de domínio
para melhorar o desempenho. Em termos de processamento computacional, a
linguagem geral pode ser entendida como uma tentativa de dar conta de “qualquer
linguagem”, ou de todas elas. No entanto, textos considerados de linguagem geral,
mesmo que não incluam terminologia específica ou um jargão, tratam de um
determinado assunto, em um determinado contexto e têm uma determinada
estrutura. Os sentidos, então, não existiriam por si só, mas seriam construídos
nesse contexto (Kilgarriff, 1997). O contexto, por sua vez, determinaria as
informações, inclusive extralingüísticas (culturalmente compartilhadas pelos
leitores), que precisam ser recuperadas para que o texto seja interpretado de forma
semelhante por todos. Como os tradutores automáticos não são capazes de
“construir” os sentidos e os sistemas baseados em conhecimento lingüístico não
têm recursos extralingüísticos, um caminho viável pode ser a delimitação prévia
do domínio. Se não resolve totalmente todos os problemas encontrados na
tradução automática, a especialização lingüística, de implantação razoavelmente
fácil no mercado de localização, pode trazer um avanço considerável no resultado
final.
PUC-Rio - Certificação Digital Nº 0410515/CA
4
Estudo de caso de tradução automática para o mercado de
localização
Neste capítulo, fazemos a avaliação do uso de um tradutor automático no
mercado de localização. Por isso, consideramos relevante aplicar uma proposta de
avaliação que não ficasse restrita às questões lingüísticas e considerasse também
os aspectos contextuais desse mercado. Para tal, recorremos à taxonomia do
FEMTI, apresentada no capítulo 3.
Além de incluir o aspecto contextual, outras diferenças entre a nossa
avaliação e aquelas apresentadas no capítulo 3 são a utilização de apenas um
sistema e a escolha de um texto de linguagem técnica, específico da área de
localização, com terminologia de informática e telefonia celular. Com essa
escolha, buscamos verificar também se a delimitação do domínio de fato facilita o
processo de TA, além de observar algumas das características específicas das
opções de interface e dos manuais.
Procuramos classificar os erros encontrados na tradução automática da lista
de menus do aparelho e relacioná-los às categorias da taxonomia do FEMTI.
Sempre que possível, são sugeridas soluções para as questões identificadas. Vale
observar que as sugestões são pontuais, voltadas para os problemas encontrados
nesse contexto limitado. Elas precisam ser testadas em corpora representativos da
área para confirmar se efetivamente resolvem as questões sem provocar novos
problemas em outras situações. Além disso, como não tivemos acesso ao
programa, não é possível garantir se as soluções estão de acordo com a sua
estrutura nem se poderão ser implementadas. A lista completa dos menus com as
respectivas traduções é apresentada no anexo I.
O fato de nos concentramos nos aspectos pertinentes à utilização deste
tradutor automático no mercado de localização de forma alguma significa que o
programa tenha superado outras dificuldades relacionadas à linguagem dita geral.
Acreditamos, contudo, que as pesquisas sobre avaliação que apresentamos no
capítulo 3 fazem contribuições bastante relevantes para a melhoria do programa, o
PUC-Rio - Certificação Digital Nº 0410515/CA
68
que possibilita que nossa análise se concentre nos aspectos relacionados à
localização.
Nas categorias lingüísticas, os problemas ou erros foram determinamos com
base nos padrões atualmente aceitos no mercado de localização, conforme
apresentado resumidamente na seção sobre controle de qualidade, no capítulo 2, e
mais detalhadamente discutido em Esselink (2000).
4.1.
Avaliação com base na taxonomia do FEMTI
Nesta seção, aplicamos parte da taxonomia do FEMTI para avaliação do
sistema de TA utilizado em nossa pesquisa. Como essa é uma avaliação externa,
sem acesso ao programa, determinadas categorias não puderam ser avaliadas.
Mesmo assim, procuramos comentar questões relevantes que deverão ser levadas
em consideração numa avaliação completa. As categorias que dizem respeito ao
funcionamento do software (Interoperabilidade, 2.2.1.4, até Coexistência, 2.2.6.5)
foram excluídas deste capítulo. Foram mantidas apenas as categorias que
consideramos relevantes comentar ou para quais tínhamos informações
suficientes. Além disso, em alguns casos, a escolha de uma categoria eliminava
outras. Por exemplo, no nosso caso a comunicação é assíncrona, então a categoria
“Síncrona” foi excluída. Por isso, há saltos na numeração (p. ex.: de 1.1 para
1.1.5). A lista completa, com todas as categorias, foi apresentada no capítulo 3.
Vale observar que a taxonomia é complexa e que são sugeridas muitas
métricas de avaliação para cada categoria, portanto uma avaliação completa seria
muito longa e dependeria não só do acesso a informações confidenciais da
empresa, mas também da participação de profissionais de áreas diferentes. Nesta
avaliação inicial, comentaremos as categorias de forma mais livre, sem uma
preocupação estrita com as métricas sugeridas, mas procurando considerar
aspectos relevantes em relação a cada categoria.
Faremos uma avaliação mais detalhada das categorias lingüísticas, com
exemplos do nosso corpus e sugestões de solução sempre que possível. Como as
categorias lingüísticas do FEMTI são abrangentes e não dão conta de fenômenos
específicos do português, do mercado de localização e dos domínios, propusemos
algumas subcategorias, que estão indicadas com marcação alfabética. Por
PUC-Rio - Certificação Digital Nº 0410515/CA
69
exemplo, na categoria 1.5 Características da entrada (texto e autor) incluímos as
subcategorias a) Formatação, b) Correção ortográfica e c) Variante lingüística.
CLASSIFICAÇÃO DO FEMTI
1 REQUISITOS DA AVALIAÇÃO
1.1 Propósito da avaliação
1.1.5 Avaliação declarativa
Esse é o propósito de avaliação que mais se encaixa em nosso estudo, por
considerar o desempenho atual do programa em função de fatores como a
abrangência lingüística e o tratamento de textos reais. As características do
sistema que deverão ser avaliadas nesse caso são Modelos de processo de
tradução, Recursos lingüísticos, Adequação, Precisão e Boa formação.
Discutiremos todas elas, à exceção dos Recursos lingüísticos porque não tivemos
acesso ao programa.
1.1.6 Avaliação operacional
Apesar de não termos acesso às informações necessárias para fazer esse tipo
de avaliação mais técnica, consideramos que esse seja um aspecto crucial para a
implantação efetiva da TA no mercado de localização, por isso decidimos
comentá-lo. Segundo a definição, o foco da avaliação operacional é analisar se o
sistema de TA irá de fato servir ao propósito pretendido no contexto operacional
de uso. Uma das questões fundamentais é o custo-benefício de integrar o sistema
de TA ao processo geral. As características a serem avaliadas são Recursos
lingüísticos, Interoperabilidade, Confiabilidade, Facilidade de manutenção,
Portabilidade e Custos, às quais não tivemos acesso.
1.2 Objeto da avaliação
1.2.3 O sistema de TA como parte de um sistema mais amplo
Na nossa pesquisa, consideraremos o sistema de TA como parte do processo
de localização. Na definição dessa categoria, os autores comentam que a avaliação
irá variar muito de acordo com o processo ao qual o sistema será integrado e por
isso essa questão ainda não é abordada na versão atual da taxonomia. Isso mostra
PUC-Rio - Certificação Digital Nº 0410515/CA
70
que essa integração é um campo de pesquisa a ser explorado e que a iniciativa da
empresa de aplicar TA no processo de localização é realmente pioneira.
Apesar de ainda não haver métricas propostas para essa categoria,
comentaremos alguns aspectos da integração em outras categorias, como a relação
com a memória de tradução e com arquivos de formatos variados.
1.3 Características da tarefa tradutória
1.3.2 Divulgação
1.3.2.2 Publicação externa
1.3.2.2.2 Vários tipos de clientes
A finalidade da tradução no processo de localização é a divulgação, com
publicação externa do material. O público-alvo de softwares é muito abrangente
(vários tipos de clientes com necessidades diferentes). Outros aspectos sobre o
público-alvo serão discutidos na categoria 1.4.2 “Consumidor da tradução”.
1.3.3 Comunicação
1.3.3.2 Assíncrona
No processo tradicional de localização, a tradução não é usada para
interação simultânea entre usuários. Os produtos são primeiramente localizados
para, então, serem comercializados.
1.4 Características dos usuários
1.4.1 Usuário da TA
Caso a TA seja integrada ao processo de localização, podemos esperar que
haja vários usuários: engenheiros, que prepararão os arquivos, lingüistas
(provavelmente tradutores), que atualizarão as regras e os dicionários, e tradutores
e revisores que serão responsáveis pela pré-edição e pela pós-edição do texto. A
aceitação desses usuários poderá variar de acordo com as implicações que o uso
do sistema tiver para cada área. A capacidade de integração com as ferramentas de
memória de tradução, por exemplo, afetará a aceitação dos engenheiros. Os
aspectos mais relacionados ao funcionamento do software, como utilização de
recursos, freqüência de travamento, facilidade de utilização, afetarão a aceitação
de todos os usuários em relação à produtividade. Já a adequação do texto de
entrada afetará os tradutores responsáveis pela pré-edição do material, enquanto a
qualidade do texto gerado pelo sistema afetará os responsáveis pela pós-edição,
por exemplo.
PUC-Rio - Certificação Digital Nº 0410515/CA
71
1.4.1.2 Proficiência na língua-fonte e
1.4.1.3 Proficiência na língua-alvo
Em geral, nas empresas de localização no Brasil, todos os envolvidos no
processo têm algum conhecimento da língua-fonte (mais comumente o inglês).
Tradutores, revisores e outros lingüistas envolvidos no processo são proficientes
em ambas as línguas.
1.4.1.4 Familiaridade com o computador
Devido à própria natureza do processo de localização e aos diferentes
softwares e formatos de arquivos utilizados nessa área, todos os envolvidos no
processo têm total familiaridade com o computador.
1.4.2 Consumidor da tradução
1.4.2.1 Proficiência na língua-fonte e
1.4.2.2 Proficiência na língua-alvo
O perfil do consumidor de produtos localizados é muito amplo, variando de
acordo com o tipo e a finalidade dos softwares e dos equipamentos de tecnologia
disponíveis. Nesse caso, a proficiência na língua-fonte não será relevante porque
os padrões de qualidade deverão ser os mesmos empregados no mercado
profissional atualmente, então o uso de TA não deverá ser percebido pelo
consumidor da tradução. Para tal, ainda que haja melhorias na qualidade do
sistema de TA, faz-se necessário manter as etapas de controle de qualidade do
material, que já fazem parte do processo de localização, além de incluir novas
etapas, como a pré- e a pós-edição.
1.4.3 Usuário corporativo
A nossa avaliação é voltada para um usuário corporativo que é a empresa de
localização que pretende integrar o sistema de TA ao processo de localização.
1.5 Características da entrada (autor e texto)
1.5.1 Tipo de documento
Nesse tópico, a taxonomia apresenta as subcategorias 1.5.1.1 Gênero e
1.5.1.2 Domínio/campo de aplicação. No entanto, Bruckner&Plitt (2001), num
estudo em que aplicam a taxonomia do FEMTI para avaliar a integração da TA à
memória de tradução no processo de localização, propõem a inclusão das
seguintes subcategorias especificamente para esse mercado: tipo (ex.: tutoriais,
manuais do usuário, referências para programadores), domínio (ferramentas para
PUC-Rio - Certificação Digital Nº 0410515/CA
72
escritório, sistemas CAD, software da área de negócios), formato de arquivo
(RTF, Framemaker, XML, HTML etc) e produto. Seguindo essa subcategorização
proposta pelos autores, o tipo de texto utilizado na nossa avaliação foi um manual
de usuário de um telefone celular, disponível na internet. O arquivo original
estava no formato pdf e teve de ser convertido para txt para ser processado pelo
programa. O produto é um telefone celular, de uma das marcas mais populares no
Brasil.
O formato do arquivo do texto de entrada é uma questão crucial em relação
ao sistema de TA avaliado nesse estudo. Para o processamento do texto na
memória de tradução em geral o arquivo é convertido do formato original para um
formato aceito pela ferramenta de memória, como rtf. Nessa conversão, são
incluídos códigos de formatação, que indicam as características do formato
original para que elas sejam preservadas quando o arquivo for convertido de volta
para o formato original após a tradução. Como o sistema de TA só aceita texto
sem formatação, essas indicações das características originais seriam perdidas.
Portanto, é necessário analisar se essa limitação do sistema pode ser alterada ou se
é viável criar uma etapa de recuperação da formatação original ao final do
processo.
A seguir, apresentaremos informações mais detalhadas sobre o texto
selecionado, que serão relevantes para a avaliação lingüística.
Decidimos utilizar esse manual disponível na internet pela facilidade de
obtê-lo e para evitar complicações referentes a direitos autorais e também para
possibilitar o processamento eletrônico do arquivo, evitando, assim, dificuldades
com digitalização de textos e correção dos problemas decorrentes da digitalização.
A princípio, um telefone celular pode parecer fugir do escopo da área de
localização de software. No entanto, como discutido no capítulo 2, o termo
localização atualmente se aplica ao processo de tradução de qualquer produto de
tecnologia. Um telefone celular é um aparelho (um hardware) que executa um
sistema operacional específico e acessa uma série de outros hardwares e softwares
em rede para funcionar e disponibilizar serviços aos assinantes. Decidimos, então,
optar por um manual de telefone celular porque em termos do processo de
localização, o telefone celular apresenta uma estrutura similar à de um software
PUC-Rio - Certificação Digital Nº 0410515/CA
73
convencional, porém relativamente mais simples, o que facilita o nosso estudo. As
informações exibidas no visor do aparelho são os itens de interface com o usuário
e o manual é a documentação de apoio para utilização do aparelho. Um telefone
celular tem muito menos itens de interface do que um software de uso geral, como
o Microsoft Word ou Outlook, por exemplo, e a sua documentação também é mais
simples, devido à menor complexidade de um aparelho básico e à maior
familiaridade do público em geral com o uso do celular e o conteúdo do manual.
Outro fator decisivo para a escolha do corpus foi a minha experiência
profissional com a tradução e a revisão de material da área de telefonia celular, o
que facilita o reconhecimento de questões relevantes para a discussão e a sugestão
de soluções.
Por fim, com a integração dos telefones celulares à internet, a relação entre
um telefone celular e a área de informática fica ainda mais estreita, com a
possibilidade de uso de e-mail e download de aplicativos, jogos e músicas, por
exemplo, fazendo com que, em termos de localização, o processo e a linguagem
utilizados fiquem cada vez mais próximos.
Utilizamos um manual cuja versão traduzida para português tamm estava
disponível na internet. Assim, temos a tradução publicada, autorizada pelo
fabricante, e, que, por isso, provavelmente emprega uma linguagem considerada
adequada dentro dos padrões das traduções realizadas por tradutores humanos.
Dessa forma, elas podem servir de referência para os resultados do tradutor
automático.
O manual original em inglês tem 97 páginas, com um total de 17.889
palavras, de acordo com a análise da ferramenta de memória de tradução Trados
Translator’s Workbench.
O material a ser traduzido foi selecionado por nós e enviado à agência de
localização de software proprietária do sistema de TA. Inicialmente, selecionamos
dez manuais de fabricantes e modelos diferentes. A agência de localização nos
forneceu a tradução de todos eles. No entanto, como a estrutura textual dos
manuais era muito parecida e a delimitação do aspecto lingüístico a ser analisado
revelou-se um grande desafio, decidimos utilizar apenas um dos manuais,
considerado bastante representativo dos problemas encontrados no corpus geral.
Mais especificamente, para os aspectos lingüísticos desta avaliação, selecionamos
PUC-Rio - Certificação Digital Nº 0410515/CA
74
apenas a lista de menus do aparelho apresentada no manual, visando limitar o
escopo da avaliação. Como vimos no capítulo 2, a interface com o usuário é
composta pelos ícones, menus, mensagens e caixas de diálogo exibidos no próprio
aparelho. Por conter o texto de interação do usuário com o aparelho, a interface é
um componente de fundamental importância no processo de localização. Quanto
mais clara e simples for a interface, mais fácil será a utilização do produto, no
nosso caso, o telefone. Vale observar que essa característica representa um grande
desafio para a tradução automática, porque a concisão e as abreviações nos
obrigam a fazer muito mais associações e inferências e a máquina não é capaz de
fazê-las.
Além desse aspecto específico para o mercado de localização, a lista de
menus mostrou ser também uma fonte relevante para avaliação de erros e desvios
de língua geral recorrentes ao longo do manual e também em outros sistemas,
conforme apresentado nas pesquisas do capítulo 3.
Para facilitar a análise do material e a identificação das respectivas
traduções atribuídas pelo tradutor automático, foi solicitado a um engenheiro de
localização que alinhasse o texto original e o texto traduzido automaticamente.
Esse é o método usado no mercado de localização para gerar uma memória de
tradução a partir de um texto original e sua respectiva tradução. Assim, o texto
original foi dividido em segmentos (que em geral correspondem a uma oração ou
título ou item de uma lista, dependendo da configuração da ferramenta) e alinhado
ao texto traduzido. Foi gerado um arquivo de texto txt com esse conteúdo, que foi
automaticamente exportado para o formato do Excel, para facilitar a organização
dos segmentos originais ao lado das respectivas traduções.
No nosso corpus, identificamos três aspectos que não havíamos previsto do
texto original que afetam diretamente a qualidade da tradução automática: a
formatação, a correção ortográfica e a variante lingüística. Reiteramos que essas
subcategorias não fazem parte da taxonomia do FEMTI e foram incluídas por nós.
a) Formatação
Exemplo:
Original
– 1) 10.Enhancement settings1
Tradução automática
- 10.Enhancement settings1
Tradução do fabricante – Configurações de acessório
PUC-Rio - Certificação Digital Nº 0410515/CA
75
Comentários – Nesse exemplo, duas questões de formatação do original
afetaram a tradução, fazendo com que a opção de interface não fosse traduzida. A
primeira, o número “10” na frente do item, indica que havia uma lista numerada.
Como faltou um espaço entre a palavra e o número, o programa não reconheceu a
palavra “Enhancement”. A segunda questão está relacionada à formatação de uma
nota de rodapé, indicada pelo algarismo “1” junto à palavra “settings”. O
algarismo foi mantido junto à palavra e ela não foi traduzida, porque não foi
reconhecida. As palavras “enhancement” e “settings” foram traduzidas em outras
ocorrências e, portanto, constam no dicionário do sistema.
Solução - Depende da capacidade de alteração do sistema para aceitar
códigos de formatação que indicam negrito, itálico, fontes, aspas, listas numeradas
ou com marcadores, notas de rodapé, entre outras, no original.
Outra solução seria fazer as alterações de formatação possíveis durante a
pré-edição do original, acrescentando espaços entre as palavras e as numerações
de lista e nota de rodapé, por exemplo.
b) Correção ortográfica
Exemplos:
Original – 1) Anykey 2) Keyguard 3) Multimedia msgs.
Tradução automática – Nos itens 1 e 2, as palavras foram mantidas em
inglês. 3) Msgs de multimídia
Tradução do fabricante
– 1) qualquer tecla 2) Proteção 3) Mens. multimídia
Comentários
– Os erros de ortografia fazem com que as palavras não sejam
reconhecidas pelo sistema e sejam mantidas em inglês. Poderíamos também
considerar “anykey” e “keyguard” como neologismos ou alterações decorrentes da
restrição de espaço, como é o caso da abreviação “msgs.”, para “mensagens”.
Nesse caso, elas entrariam na categoria “fontes de erros intencionais” (do autor).
Solução – Uma opção para identificar os erros de grafia, abreviações e
neologismos seria usar o corretor ortográfico no texto original e já listar ou alterar
as palavras desconhecidas durante a pré-edição para inclui-las no dicionário, se
necessário.
c) Variante lingüística
Exemplos:
Original – 1) dialled 2) Colour
PUC-Rio - Certificação Digital Nº 0410515/CA
76
Tradução automática – As palavras foram mantidas em inglês
Tradução do fabricante – 1) discado 2) Cores
Comentários – Aqui temos casos de diferença de grafia entre o inglês
britânico e o inglês norte-americano. É provável que no dicionário conste a grafia
“color”, por isso a forma “colour” não foi reconhecida.
Já no caso de “dial” e as variações “dials”, “dialled” e “dialling”, não foi
possível compreender exatamente o comportamento do programa. Inicialmente,
supomos que a tradução “discar” não constasse no dicionário, já que quase todas
as ocorrências foram mantidas em inglês. Porém, verificando o manual completo,
encontramos a tradução “discar” para “dialing”, na única ocorrência com grafia
americana (com apenas um “l”). Supomos, então, que o dicionário tivesse
ignorando a grafia inglesa, com dois “l”, mas como “dial” e “dials” também não
foram reconhecidas, essa hipótese não se confirmou. Outra estranheza nesse caso
é a tradução de “dials” como “dial” em “Speed dials”, traduzido como “Dial de
velocidade”. As outras palavras que não constavam no dicionário foram mantidas
exatamente como no original, então não conseguimos compreender por que o “s”
final foi retirado da tradução nesse caso.
Solução – Uma opção seria usar o corretor ortográfico no texto original e já
alterar as palavras de grafia britânica (caso o texto tenha predominantemente
grafia norte-americana, ou vice-versa) durante a pré-edição.
1.5.2 Características do autor
Na área de localização, como em muitas áreas técnicas, a questão da autoria,
como é considerada de forma tradicional na literatura e nos estudos da tradução,
passa a ser secundária. Os textos são produzidos por redatores técnicos,
engenheiros, especialistas e em geral não são assinados, o que dificulta as
considerações sobre o autor. Em alguns contextos corporativos, a figura do autor
poderia ser associada à imagem e ao discurso veiculados por uma empresa, como
num website ou num portfólio. Contudo, não consideramos que esse seja o caso
dos manuais técnicos de forma geral. Assim, optamos por excluir as subcategorias
relacionadas ao autor.
PUC-Rio - Certificação Digital Nº 0410515/CA
77
2 CARACTERÍSTICAS DO SISTEMA A SEREM AVALIADAS
2.1 Características específicas do sistema de TA
2.1.1 Modelos de processo de tradução
2.1.1.1 Metodologia
2.1.1.1.1 Modelos baseados em regras
O sistema de tradução automática utilizado neste trabalho pertence a uma
agência de localização de software multinacional que possui escritório no Brasil.
Por motivos de confidencialidade, a empresa nos concedeu acesso somente ao
produto final do programa, ou seja, o texto traduzido. Tínhamos também o texto
original, que foi selecionado por nós.
Algumas outras informações fornecidas sobre o tradutor automático foram:
o sistema possui dicionários que podem ser ampliados e atualizados pelo usuário;
é possível criar dicionários para domínios específicos, que são selecionados no
momento da tradução; e é possível criar regras gramaticais para resolver as
estruturas sintáticas. Com base nessas informações, podemos supor que este seja
um sistema baseado em regras, exclusivamente em conhecimento lingüístico, sem
análise de contexto, sem recursos estatísticos baseados em corpora nem outras
fontes de conhecimento extralingüístico, como enciclopédias e bases de
conhecimento.
As regras gramaticais parecem ser organizadas em algum tipo de hierarquia.
Parece também que elas são desenvolvidas com base em casos específicos,
apresentando soluções ad hoc que podem solucionar uma questão sintática
pontual, mas gerar problemas em outras estruturas.
A partir da observação dos dados, não foi possível inferir a ordem de
prioridade das regras nem a relação entre as regras lexicais e sintáticas. Várias
palavras possuem mais de uma tradução no dicionário, já que foram traduzidas
diferentemente em situações distintas. É provável que a opção do dicionário seja
determinada pela estrutura sintática em que a palavra ocorre.
Podemos supor que esse sistema inicialmente tenha sido desenvolvido para
a linguagem geral, dada a capacidade de inclusão de regras e dicionários, mas a
intenção da empresa é utilizá-lo para fins específicos, como a tradução na área de
localização. Fica clara, então, a relevância de procurar identificar questões
PUC-Rio - Certificação Digital Nº 0410515/CA
78
específicas dessa área e desses tipos de texto para contribuir para a melhoria da
qualidade do sistema.
2.1.1.1.4 Modelos com memória de tradução
Como vimos no capítulo 2, as ferramentas de memória de tradução
desempenham um papel fundamental no mercado de localização e a sua
integração ao sistema de TA é uma prioridade para viabilizar e justificar sua
aplicação no mercado de localização. Alguns sistemas já oferecem algum nível de
integração às ferramentas de memória de tradução, como o LOGOS e o
SYSTRAN que são compatíveis com o Trados Translator’s Workbench (Esselink,
2000:395). Neste processo, o computador busca uma tradução para o segmento na
memória de tradução. Caso não encontre, será necessária a intervenção do tradutor
para solicitar a tradução do segmento ao sistema de tradução automática, editá-la
e, então, atualizar a memória com o novo segmento (Esselink, 2000:395). Existem
também sistemas de TA desenvolvidos especificamente para serem integrados a
memórias de tradução, como o PROMT, desenvolvido para a Trados pela
empresa PROMT, da Rússia (Shadbolt, 2003:9). É provável que esse tipo de
sistema seja mais adequado para o mercado de localização, mas não há relatos de
que estejam sendo usados no mercado brasileiro.
Com base nas características básicas do sistema, como a capacidade de
processar somente texto em formato txt, podemos supor que o tradutor automático
utilizado neste trabalho não foi desenvolvido para ser integrado às ferramentas de
memória de tradução. Essa possibilidade de integração dependerá de uma
avaliação interna do sistema, a ser realizada pela equipe técnica especializada no
sistema em conjunto com a equipe de engenharia de software, e foge ao escopo do
nosso trabalho.
Dentro da definição dessa categoria no website, encontramos o seguinte
comentário dos autores: “A incorporação da memória de tradução às plataformas
tradicionais de tradução automática é um campo de estudo relativamente recente e
ainda pouco explorado”.
8
8
“The incorporation of translation memory into traditional machine translation platforms is a
relatively new and under-represented field of study, although a few examples do exist.”
(FEMTI: http://www.isi.edu/natural-language/mteval/
).
PUC-Rio - Certificação Digital Nº 0410515/CA
79
2.1.1.2 Modelos
2.1.1.2.2 Transferência
O tradutor automático da pesquisa é baseado em tradução indireta por
transferência.
2.1.2 Recursos lingüísticos
2.1.2.1 Idiomas
Sabemos que o sistema é multilíngüe, mas a nossa pesquisa envolveu
somente o par inglês-português. Como o sistema é baseado em regras, a direção
da tradução é relevante, nesse caso, do inglês para o português.
2.1.2.2 Dicionários
Fomos informados de que o sistema possui dicionários gerais e dicionários
específicos para domínios diferentes, como informática, medicina e direito ou até
mesmo para subdomínios, como hardware, cardiologia e direito societário, por
exemplo. Os dicionários podem ser ampliados e revisados e podem ser criados
novos dicionários conforme necessário. Nos dicionários, é possível incluir
informações sintáticas, como a transitividade dos verbos.
2.1.3 Características do processo
2.1.3.1 Atividades de preparação da tradução
Tais atividades deverão ser planejadas pela empresa de localização, de
acordo com a capacidade interna do sistema para aceitar diferentes formatos de
arquivos. Como vimos, atualmente o sistema só aceita o formato txt, então seria
necessária uma etapa de conversão dos outros formatos normalmente utilizados
nesse mercado. Pode haver também a necessidade de pré-edição do texto, para
resolver ambigüidades, fazer a revisão ortográfica (para evitar que o sistema erre a
tradução por erros de ortografia do original) ou alterar formatações que
comprometam a tradução gerada, por exemplo.
2.1.3.2 Atividades posteriores à tradução
Como vimos no capítulo 3, a maioria dos sistemas de TA ainda produz
textos que precisam ser submetidos à pós-edição para atender aos padrões de
qualidade geralmente aceitos. A pós-edição, então, deverá ser uma das principais
atividades posteriores à tradução. Outras atividades poderão ser a conversão do
texto para o formato de arquivo original e a formatação do arquivo.
PUC-Rio - Certificação Digital Nº 0410515/CA
80
A respeito da pós-edição, vale notar que o cálculo de produtividade de um
revisor no mercado de localização é de aproximadamente 5.000 palavras por dia,
revisando um texto produzido por um tradutor humano. As questões que se
colocam, então, são como conseguir que a máquina produza um texto com
qualidade mais próxima possível do texto do tradutor profissional, para que a
produtividade do revisor não seja afetada, e se esses esforços irão efetivamente
representar redução de tempo e custo. Além disso, os revisores deverão ser
treinados em novas habilidades, já que muitos dos erros da máquina serão de
natureza diferente dos erros dos tradutores humanos. Contudo, antes que esse tipo
de avaliação seja feito, é preciso investir na melhoria da qualidade da tradução
com ajustes básicos, sobretudo de regras e dicionários, como aqueles sugeridos
nas pesquisas apresentadas no capítulo 3 e os discutidos nas próximas seções.
2.1.3.3 Atividades interativas
Acreditamos que esse sistema não ofereça opções de interação durante a
tradução.
2.1.3.5 Gerenciamento do processo
Caberá à empresa e aos gerentes de projeto fazer as adaptações necessárias
ao processo de localização para a integração do sistema de TA, incluindo e
planejando as etapas necessárias para formatação, conversão, pré-edição, pós-
edição etc.
2.2 Características externas do sistema
2.2.1 Funcionalidade
Parte desta categoria se concentra na avaliação lingüística do sistema. Como
explicado na categoria 1.5 Características da entrada, os exemplos comentados
foram retirados das traduções geradas pelo sistema para a lista de menus do
telefone celular, apresentada no manual do usuário. Vale lembrar que as
subcategorias lingüísticas, indicadas com marcação alfabética, não fazem parte da
taxonomia do FEMTI e foram incluídas por nós para classificação e discussão dos
problemas específicos ao nosso corpus. Por exemplo, na categoria Consideração
dos fenômenos específicos ao corpus, as subcategorias a) Emprego do modo
imperativo, b) Alteração de classe gramatical e c) Tratamento de siglas foram
elaboradas por nós e não fazem parte da taxonomia do FEMTI.
PUC-Rio - Certificação Digital Nº 0410515/CA
81
2.2.1.1 Adequação
2.2.1.1.1 Somente língua-alvo
2.2.1.1.1.1 Legibilidade (ou fluência, compreensibilidade,
clareza),
2.2.1.1.1.2 Inteligibilidade,
2.2.1.1.1.3 Coerência e
2.2.1.1.1.4 Coesão
A taxonomia oferece várias sugestões de métricas para avaliação dessas
quatro categorias: legibilidade, inteligibilidade, coerência e coesão
especificamente no texto traduzido. Nessa avaliação inicial, apresentaremos
algumas impressões gerais, sem aplicar nenhuma métrica específica.
A lista de menus é composta por itens isolados. Uma leitura de outras
passagens do manual traduzido revela que essas quatro categorias ficam bastante
comprometidas devido aos erros, de natureza variada, no nível sentencial.
Acreditamos que uma avaliação desses aspectos textuais só será possível depois
que alguns ajustes básicos de regras e dicionários forem realizados para melhor a
qualidade da tradução no nível sentencial.
2.2.1.1.2 Contrastivo/interlingual
Nesta categoria, o foco não está somente no texto traduzido, mas no
processo de tradução. Avalia-se principalmente a capacidade do sistema de lidar
com as diferenças mais comumente reconhecidas entre as línguas em questão.
Costumam ser usados conjuntos de testes, em geral produzidos pelos próprios
fabricantes, que contêm textos especificamente criados ou selecionados para testar
fenômenos pontuais, como tempos verbais, homógrafos ou o uso de pronomes,
por exemplo (Maia&Barreiro, no prelo). Essas questões são consideradas nas
próximas duas subcategorias, 2.2.1.1.2.1 e 2.2.1.1.2.2.
2.2.1.1.2.1 Consideração dos fenômenos específicos ao
corpus
De acordo com a definição, nesta categoria é avaliada a capacidade do
sistema de lidar com os desafios específicos apresentados pelo corpus de
interesse. Um corpus formado por material da área de localização apresenta
muitas especificidades. Algumas já foram comentadas anteriormente, como a
variedade de formatos de entrada e as características das opções de interface com
PUC-Rio - Certificação Digital Nº 0410515/CA
82
o usuário. Outra característica que não é de forma alguma exclusiva deste
mercado, mas que faz parte do próprio conceito de localização, é a adaptação. Os
exemplos clássicos são aqueles mais pontuais e que ocorrem no próprio texto,
como convenções de hora e data e símbolos de moedas, mas as adaptações podem
afetar aspectos mais gerais, como a reorganização, a inclusão ou a exclusão de
informações. Contrastando a versão original do manual e a versão traduzida
disponibilizada pelo fabricante na internet, podemos observar que várias
adaptações mais estruturais foram feitas. Por exemplo, a versão original do
manual tem 97 páginas enquanto a tradução tem 63 páginas, portanto deve ter
havido corte de conteúdo. Enquanto no original as informações sobre bateria,
acessórios e cuidados e manutenção estavam distribuídas em seções
independentes, na tradução essas informações foram reunidas numa mesma seção,
intitulada “Referências”. Foi também incluída uma seção intitulada “Termos
comuns”, com uma pequena lista de siglas, seguidas pelo extenso em inglês e a
tradução. Obviamente, não podemos esperar que o sistema de TA faça essas
adaptações. Elas, em geral, são determinadas pelo cliente final, da área técnica ou
de marketing do fabricante do produto. Contudo, consideramos importante
registrar que as adaptações não deixarão de ser necessárias caso o uso de TA
passe a fazer parte do processo de localização.
A respeito das opções de interface com o usuário, que são o objeto da nossa
análise lingüística, é importante observar que o reconhecimento desses itens como
“entidades”, com uma identidade que precisa ser preservada tanto no aparelho
quanto nas referências em manuais ou outro material de referência, é fundamental
para a qualidade do produto. A partir da lista de menus do telefone, pudemos
observar que o sistema não está preparado para reconhecer essas entidades como
tal nem para lidar com suas peculiaridades lingüísticas da forma como elas são
tratadas no mercado de localização, como veremos nos exemplos apresentados.
As próximas três categorias foram criadas por nós com base em exemplos
retirados do corpus: a) Emprego do modo imperativo, b) Alteração de classe
gramatical e c) Tratamento de siglas. Apesar de as duas primeiras serem questões
gramaticais e a segunda ser abordada nos guias de estilo no mercado de
localização, optamos por não considerá-las como erros do sistema. As soluções
PUC-Rio - Certificação Digital Nº 0410515/CA
83
não estavam lingüisticamente erradas, mas foram inadequadas nesse contexto dos
itens de interface, e, portanto, são fenômenos específicos ao corpus.
a) Emprego do modo imperativo
Exemplo:
Original – Create message
Tradução automática – Crie mensagem
Tradução do fabricante – Criar mensagem
Comentários – Neste caso, o problema é a opção pelo modo imperativo para
o verbo, quando o usual na área de localização de software é o emprego do
infinitivo (como os menus “Editar”, “Exibir” e “Inserir” do Microsoft Word, por
exemplo). O uso do infinitivo justifica-se porque estes verbos indicam as ações
que o usuário pode realizar e não aquelas que ele deve realizar obrigatoriamente.
O uso de imperativo se justificaria se os verbos indicassem instruções a serem
seguidas em vez de opções, mas no caso dos itens da lista de menus, a forma
usada seria o infinitivo.
Observe, contudo, que não podemos fazer uma generalização do uso do
infinitivo nos itens de interface, já que as mensagens exibidas na tela em geral
contêm instruções e, portanto, irão exigir o emprego do modo imperativo.
Além dos itens de interface especificamente, os próprios manuais estão
repletos de instruções para os usuários, apresentando uma alta freqüência do uso
do imperativo. Assim, o emprego do infinitivo para as opções de interface não
poderá ser determinado por uma regra geral.
Solução
– Neste caso, será necessário analisar, em um contexto mais amplo,
outras características das opções de interface, que possam contribuir para a
criação de uma regra para o emprego do infinitivo nesses casos específicos. Uma
opção que podemos sugerir seria associar o uso do infinitivo a estes sintagmas
verbais mais curtos, muitas vezes sem sujeito ou sem outros complementos, como
“Create message” e “Delete folder”.
Outra hipótese é que já haja no sistema uma regra que determine o uso do
imperativo em frases sem sujeito. Caso tal regra exista de fato, ela precisaria ser
alterada.
PUC-Rio - Certificação Digital Nº 0410515/CA
84
b) Alteração de classe gramatical
Exemplo:
Original – Copy
Tradução automática – Cópia
Tradução do fabricante – Copiar
Comentários – Esse é um caso em que a relevância do contexto fica patente
para solucionar a ambigüidade provocada pelas formas homógrafas “Copy” como
verbo (“Copiar”, “Copie” ou “Copiem”) e “Copy” como substantivo (“Cópia”).
Nas opções de interface, em geral encontraremos entidades e ações a serem
realizadas com essas entidades. Só o contexto poderá determinar se “Copy” é uma
entidade ou uma ação. Podemos supor que num telefone celular, a ação “Copiar”
(um número de telefone, um contato, uma mensagem) seja mais freqüente do que
a entidade “Cópia”, provavelmente mais recorrente numa máquina de fotocópias,
por exemplo.
Solução – Fazer um estudo de freqüência da palavra “Copy” no corpus para
definir se a prioridade no dicionário deverá ser “Cópia” ou “Copiar”.
c) Tratamento de siglas
Exemplos:
Original – 1) SIM card 2) GPRS connection 3) PIN code
Tradução automática – 1) cartão de SIM 2) conexão de GPRS 3) código de
ALFINETE
Tradução do fabricante – 1) cartão SIM 2) conexão GPRS 3) código PIN
Forma por extenso e tradução das siglas
:
GPRS – General Packet Radio Service, Serviço geral de rádio em pacotes
(tradução do fabricante, disponível no manual)
SIM – Subscriber Identity Module, Módulo de identificação do assinante
(tradução do fabricante, disponível na seção de perguntas freqüentes do website
corporativo)
PIN - Personal Identification Number, Número de Identificação Pessoal
(tradução do fabricante, disponível na seção de perguntas freqüentes do website
corporativo)
Comentários
– Siglas representam um problema também para tradutores
humanos. Em geral, elas são utilizadas para referência a entidades como
PUC-Rio - Certificação Digital Nº 0410515/CA
85
tecnologias, serviços, produtos padrão do mercado ou próprios da empresa. As
dificuldades para tradução são decorrentes principalmente da não-determinação
do gênero em inglês, que precisa ser identificado para ser explicitado em
português. Como nem sempre a forma por extenso é apresentada, o tradutor
humano precisa buscar outras fontes para determinar o gênero.
Outra questão determinada pelo uso no domínio é a tradução ou não da sigla
original. Podemos observar uma tendência maior ao emprego das formas em
inglês, mas algumas siglas, como PSTN (Public Switched Telephone Network)
tiveram suas traduções consagradas em português: RTPC, de Rede telefônica
pública comutada. (Tradução disponível no glossário online da Agência Nacional
de Telecomunicações – Anatel).
Podemos supor que o emprego dessas formas sem preposição tenha sido
determinado pelo uso e pela referência à tecnologia subjacente ao produto ou
serviço em si, já que, se pensarmos nos termos por extenso, a sintaxe das formas
que foram consagradas em português não se justificam, como “conexão GPRS” e
“cartão SIM”. Numa construção típica em português, os sintagmas “conexão
serviço geral de rádio em pacotes” e “cartão módulo de identificação do
assinante” seriam agramaticais.
Solução – Uma opção a ser verificada seria incluir uma regra que restrinja o
uso de preposição antes de siglas, observando-se as conseqüências dessa decisão
em um corpus mais extenso e com ocorrência de outras abreviações.
Outra solução mais pontual seria a inclusão das expressões completas no
dicionário, como “GPRS connection”, “GPRS data”, “PIN code” e “SIM card”.
Uma opção para evitar que a sigla seja confundida com uma palavra
homônima, como PIN, que foi traduzido como “alfinete”, seria estabelecer uma
regra que interpretasse como sigla palavras isoladas em caixa alta. Essa solução
requer uma verificação mais detalhada em um corpus mais extenso, visto que é
comum em manuais em inglês o emprego de caixa alta com a função de ênfase em
títulos e palavras tais como “WARNING”, “ATTENTION”, “DO NOT” etc.
2.2.1.1.2.2 Estilo
Segundo a definição, esta categoria avalia mais especificamente a
adequação da tradução em termos de registro. Assim como no caso das categorias
legibilidade, inteligibilidade, coerência e coesão, consideramos que a adequação
PUC-Rio - Certificação Digital Nº 0410515/CA
86
de registro somente poderá ser avaliada quando a qualidade da tradução no nível
sentencial tiver sido aprimorada.
2.2.1.2 Precisão
2.2.1.2.1 Fidelidade
A própria definição da categoria reconhece que ela seja subjetiva e faz
referência a vários estudos que tentam definir uma métrica para avaliar a
fidelidade. Os autores comentam também que a fidelidade está diretamente ligada
à inteligibilidade. Como comentado anteriormente, consideramos que essas
categorias textuais somente poderão ser consideradas com a qualidade da tradução
tiver melhorado no nível sentencial.
2.2.1.2.2 Uniformidade
Nessa taxonomia, a uniformidade, ou padronização, diz respeito à
capacidade do programa de gerar sempre a mesma saída para uma mesma entrada.
Na lista de menus, não foi possível observar nenhum caso dessa categoria.
2.2.1.2.3 Terminologia
Como os menus do telefone celular contêm grande parte da terminologia
específica, teremos muitos exemplos do corpus para essa categoria. Eles estão
divididos em três subcategorias sugeridas por nós: a) Vocabulário do domínio, b)
Vocabulário ambíguo no próprio domínio e c) Vocabulário padrão do mercado de
localização. Vale ressaltar que neste trabalho empregamos a palavra “termo”
conforme é feito na área de localização e não de acordo com definições da área de
terminologia. No mercado de localização, “termo” é usado tanto para palavras do
jargão, que designam conceitos bem-definidos em determinada área do
conhecimento, quanto para palavras usadas freqüentemente ou cuja tradução
precisa ser padronizada para evitar ambigüidade ou para sempre remeter ao
mesmo conceito ou função (do programa, por exemplo), mesmo que não seja
estritamente um termo científico. Um exemplo é o caso das palavras “Selection” e
“Choice”, que será discutido no item b a seguir.
a) Vocabulário do domínio
Exemplos:
Original
– 1) List of menu functions 2) Screen saver timeout
Tradução automática
– 1) Lista de funções de cardápio 2) Esconda intervalo
de poupador
PUC-Rio - Certificação Digital Nº 0410515/CA
87
Tradução do fabricante – 1) Lista de funções do menu 2) Tempo limite do
descanso de tela
Comentários – Conforme discutimos em Specia et al. (2006), as variações
de sentidos, ou usos, de uma palavra numa língua não necessariamente se mantêm
ou são traduzidas por uma única palavra em outra língua, o que representa um
desafio para aplicações bilíngües ou multilíngües, como a tradução automática.
Dependendo da estrutura interna dos dicionários, pode ser difícil ou mesmo
impossível definir mais de uma tradução para a mesma palavra original. Mesmo
que seja possível incluir entradas diferentes para a mesma palavra a fim de atribuir
traduções diferentes a cada uma (por exemplo: menu – sentido 1 = cardápio e
menu – sentido 2 = menu), a dificuldade reside em como o sistema escolherá entre
uma das opções na interpretação do original, ou seja, em como ele fará a
desambiguação de sentido. Esse é um desafio especialmente complexo para
sistemas de TA voltados para uso geral, que precisam lidar com os vários usos de
uma mesma palavra em diferentes contextos.
Uma opção para contornar esse problema é a delimitação do domínio. Como
observam Ide&Véronis (1998), a determinação do domínio é fundamental para a
desambiguação lexical do sentido. Delimitado o domínio, é possível criar um
dicionário específico, em que constem apenas as traduções mais freqüentes
naquele contexto. Nos domínios de informática ou telecomunicações, é muito
pouco provável que seja necessário utilizar a palavra “cardápio”, portanto não há
necessidade de manter essa opção no dicionário do domínio. Outros exemplos são
“cela”, como tradução de “cell”, em vez de “célula” ou “celular”; colocações”,
como tradução de “settings”, em vez de “configurações”; e “ligações”, como
tradução de “links”, em vez de manter “links”.
Por fim, o fato de o termo “screen saver” (“Proteção de tela”) não constar no
dicionário fez com que cada palavra fosse interpretada e traduzida isoladamente,
“screen” como “esconder” e “saver” como “poupador”.
Solução – Inclusão da tradução mais freqüente no domínio no dicionário.
No caso de “screen saver”, a solução seria incluir esse termo no dicionário. Entre
a opção do fabricante, “Descanso de tela”, e a tradução padrão da Microsoft,
“Proteção de tela” sugerimos a inclusão da tradução da Microsoft, por ser mais
utilizada no mercado de localização.
PUC-Rio - Certificação Digital Nº 0410515/CA
88
b) Vocabulário ambíguo no próprio domínio
Exemplos:
Original – 1) Operator selection 2) Home 3) time
Tradução automática – 1) Seleção de operador 2) Casa 3) tempo
Tradução do fabricante – 1) Escolha de operadora 2) Homepage ou Sistema
local e 3) hora
Comentários – Aqui se repete o problema de usos diferentes de uma mesma
palavra no original exigirem traduções diferentes. Nesses casos, contudo, existe
uma ambigüidade de termos dos próprios domínios de telefonia celular e
informática, a saber “operador” (o atendente do call center, por exemplo) ou
“operadora” (a empresa de telefonia que disponibiliza o acesso à rede), como
traduções de “operator”, e “homepage” (página principal de um website) ou
“sistema local” (sistema ou área em que o telefone celular está registrado), como
traduções de “home”. Também incluímos nessa categoria a palavra “time”, que,
apesar de não ser específica de um domínio, é muito freqüente em informática e
telefonia celular.
Em alguns contextos, como “operator logo”, é fácil para os tradutores
humanos supor que a tradução seja “operadora”. Já no caso do termo “operator
selection”, o leitor ou o tradutor podem considerar que haja ambigüidade entre
“seleção de operadora” ou “seleção de operador”.
No caso de “home” e “time”, em geral o contexto esclarece a ambigüidade
para o tradutor humano. A tradução “casa” precisaria ser mantida porque a
maioria dos aparelhos oferece a opção de gravação de vários números para um
mesmo contato, associando-se cada número a uma referência, como “Casa”,
“Trabalho” ou “Fax”.
Solução
– No caso de “operator”, assim como nos casos anteriores, a
solução pode ser manter “operadora” como primeira opção no dicionário, se
possível, ou então manter apenas essa opção, a fim de reduzir o número de
correções na pós-edição. Outra alternativa é incluir sintagmas mais longos no
dicionário, ou seja, uma entrada para “operator selection” e outra para “operator
logo”. Esta última opção parece ser a melhor também para os termos “home” e
“time”, fazendo com que “home” isoladamente tenha como primeira tradução
“homepage” e “home system” seja traduzido como “sistema local”. A tradução
PUC-Rio - Certificação Digital Nº 0410515/CA
89
“casa” pode ser incluída como segunda opção se o sistema tiver uma forma de
considerar o contexto (da agenda de contatos, no caso) ou pode não ser incluída,
já que esse caso deve ser bem pontual e poderia ser alterado durante a pós-revisão.
Já para “time”, uma opção seria verificar a freqüência de cada uso para
priorizar as traduções no dicionário, além de incluir no dicionário expressões ou
colocações, como “date and time”.
Caso haja alguma ambigüidade mais complexa (não identificada nos itens
de interface analisados neste trabalho), uma solução seria avaliar o contexto para
tentar determinar o uso específico ou consultar o cliente ou um especialista para
definir o termo e incluí-lo no dicionário.
Novamente, uma análise baseada na freqüência de cada uso pode ser útil
para priorização no dicionário e determinação de outras características que
favoreçam a seleção da tradução mais adequada. No caso deste programa de TA,
tais informações poderiam ser relevantes para a elaboração de regras gramaticais
que ajudassem a determinar a tradução a ser empregada.
c) Vocabulário padrão do mercado de localização
Exemplos:
Original – 1) Memory status 2) PIN code request
Tradução automática – 1) Estado de memória 2) Pedido de código de
ALFINETE
Tradução do fabricante
– 1) Status da memória 2) Solicitação de código PIN
Comentários
– Na área de localização, em que predominam as traduções
determinadas pela Microsoft, “status” é traduzido como “status”, e não “estado”, e
“request” é traduzido como “solicitação”, e não como “pedido”.
Acreditamos que esta categoria mostre a diferença entre domínio, como
informática ou telefonia celular, e processo de localização. Enquanto as
subcategorias a e b discutiram termos específicos dos domínios de informática e
telefonia celular, esta subcategoria exemplifica uma padronização imposta pelo
processo de localização. A diferença básica é que manter “cardápio” como
tradução de “menu” seria um erro no domínio da informática, ao passo que
“estado” ou “pedido” a priori seriam traduções corretas. As traduções padrão no
mercado de localização foram determinadas arbitrariamente e foram impondo-se
ao longo do tempo, podendo ser consideradas preferenciais. No entanto, como
PUC-Rio - Certificação Digital Nº 0410515/CA
90
vimos no capítulo 2, o uso de glossários e a padronização são fundamentais na
área de localização e, por isso, a não-utilização da terminologia padrão é
considerada um erro grave mesmo para tradutores humanos.
Outro aspecto interessante neste caso é o fato de os telefones celulares
poderem ser incluídos tanto no domínio da informática como da telefonia, devido
às tecnologias utilizadas. Assim, no processo de localização, os dicionários e
glossários acabam precisando combinar o vocabulário da informática e do
domínio específico do produto, seja um telefone celular, uma câmera digital, um
aparelho de MP3 ou um forno de microondas.
Uma última questão a ser comentada é que nem sempre a localização dos
telefones celulares é realizada por empresas especializadas no processo, o que
resulta em algumas variações em relação aos termos utilizados no mercado de
localização. Alguns exemplos são as traduções “Marcadores” em vez de
“Favoritos”, para “Bookmarks”, e “Escolha” para “Selection”, em lugar de
“Seleção”. No mercado de localização, em geral “Choice” é traduzido como
“Escolha” e “Selection”, como “Seleção”.
Solução – Aqui se aplica a mesma solução do item anterior, já que para o
sistema o fato de ser um consenso de uso ou uma preferência do mercado não
seria relevante. Portanto, bastaria alterar a tradução da palavra “status” de
“estado” para “status” e de “request” de “pedido” para “solicitação” no dicionário.
Essa solução pode ser aplicada a outros termos com base em freqüência no
corpus.
2.2.1.3 Boa formação
2.2.1.3.1 Pontuação
Temos dois exemplos do corpus para essa categoria.
Exemplos:
Original – 1) Multimedia msgs. 2) Organise ’Go to’ options
Tradução automática – 1) Msgs de multimídias. 2) Organize ‘Go a opções
de ‘
Tradução do fabricante – 1) Mens. multimídia 2) Organizar opções de “Ir
para”
Comentários – Nesses casos, observamos que a pontuação não foi
corretamente interpretada pelo sistema. O ponto que indica a abreviação da
PUC-Rio - Certificação Digital Nº 0410515/CA
91
palavra “messages” como “msgs.” foi interpretado como ponto final, sendo
erradamente colocado no final do sintagma, depois da palavra “multimídia”. Esse
problema acontece em outras ferramentas também, como o Word, cuja função de
autocorreção altera automaticamente a primeira letra da palavra que se segue a um
ponto para maiúscula, o que não procede no caso de abreviações.
Já no caso das aspas, não apenas na lista de menu, mas também em outras
ocorrências no manual, observamos que o sistema não as mantém ligadas às
mesmas palavras do original. Inicialmente, supomos que o problema estivesse
relacionado ao fato de as aspas simples que precedem a palavra “Go” estarem
invertidas. Contudo, analisando outras instâncias do manual original, vemos que o
problema também ocorre em casos em que o sinal foi usado corretamente.
No exemplo mencionado, vale comentar que as aspas buscam identificar a
ocorrência de um item de interface dentro de outro item de interface, a saber “Ir
para” dentro da opção de menu “Organizar opções de ‘Ir para’”.
Solução – No primeiro caso, uma opção seria criar regras para
reconhecimento de abreviações, para que o ponto fosse mantido junto à
abreviação e não interpretado como ponto final. Outra opção seria identificar as
abreviações mais freqüentes nesse domínio em grandes corpora e inclui-las no
dicionário.
Uma solução mais abrangente seria criar regras para que o ponto não fosse
interpretado como ponto final quando cabível. Para isso, também seria necessário
observar em grandes corpora em que circunstâncias isso ocorre.
No caso das aspas, uma opção seria indicar que elas devem ser mantidas
com os mesmos sintagmas a que estavam ligadas no original. Essa solução,
contudo, exigiria que o sistema fosse capaz de reconhecer os sintagmas e as
traduções atribuídas a eles, o que é um recurso bastante complexo e em muitos
casos ainda não disponível. Enquanto uma solução automática não for
identificada, será necessário verificar este item durante a pós-edição.
2.2.1.3.2 Léxico/escolha lexical
Na taxonomia do FEMTI, não encontramos nenhuma categoria para incluir
o caso das palavras que não constavam no dicionário e foram mantidas em inglês.
Optamos por considerar neste item. As subcategorias propostas por nós são a)
Escolha lexical inadequada e b) Palavras que não constam no dicionário.
PUC-Rio - Certificação Digital Nº 0410515/CA
92
a) Escolha lexical inadequada
Exemplos:
Original – 1) Speed dialling 2) Keypad 3) Sequence
Tradução automática – 1) Faça andar depressa dialling 2) teclado
complementar 3) Sucessão
Tradução do fabricante – 1) Discagem rápida 2) teclado 3) Seqüência
Comentários – Podemos supor que o dicionário do programa tenha sido
inicialmente atualizado com base em um dicionário bilíngüe de uso geral, não
apenas por reconhecer quase todas as palavras do manual, mas especialmente pelo
fato de conter traduções de usos pouco prováveis em contexto técnico, como
“corcel” para “charger”.
A palavra “speed” consta no dicionário como substantivo, tendo sido
traduzida como “velocidade” em várias ocorrências ao longo do manual. No
entanto, como verbo, podemos supor que a tradução incluída no dicionário seja
“Fazer andar depressa”, por conta da tradução atribuída ao item de interface
“Speed dialling”, mencionada acima.
No caso de “keypad”, apesar de, em determinados contextos, haver uma
diferenciação terminológica entre “keyboard” (“teclado”) e “keypad” (“teclado
numérico”), ambos os termos são traduzidos por “teclado” no uso mais geral e em
várias ocorrências dos glossários da Microsoft. Portanto, não há a necessidade da
palavra “complementar” nesse caso, especialmente no caso de um telefone
celular, em que há apenas um teclado.
Já o termo “sequence” foi sempre traduzido como “sucessão”, apesar de a
tradução “seqüência” ser a mais freqüente.
Solução – As soluções pontuais seriam retirar a palavra “complementar” da
tradução de “keypad” no dicionário, alterar a tradução de “speed” como verbo de
“fazer andar depressa” para uma opção mais concisa e genérica, como “agilizar” e
adotar “seqüência” como primeira ou única opção de tradução para “sequence”.
Essas opções poderiam ser verificadas em corpora e em glossários da área de
informática.
PUC-Rio - Certificação Digital Nº 0410515/CA
93
b) Palavras que não constam no dicionário
Exemplos:
Original – 1) connectivity 2) inbox
Tradução automática – As palavras foram mantidas em inglês.
Solução – No caso das palavras pertinentes, uma solução seria gerar listas
de termos a partir de grandes corpora do domínio para atualizar os dicionários.
2.2.1.3.3 Gramática/sintaxe
Com base nos exemplos do nosso corpus, sugerimos duas subcategorias
sintáticas: a) Sintagmas nominais e b) Sintagmas verbais. Os sintagmas nominais
estão subdivididos em a.1) Alteração de classe gramatical, a.2) Não-diferenciação
entre particípio e pretérito perfeito, a.3) Ordem das palavras no sintagma, a.4)
Emprego do artigo definido e a.5) Concordância de gênero e número. Nos
sintagmas verbais, temos a subdivisão b.1) Regência verbal.
a) Sintagmas nominais
a.1) Alteração de classe gramatical
Exemplos:
Original – 1) Activation key list 2) Service numbers1 3) Ringing volume 4)
Extras 5) Phone language 6) call divert
Tradução automática – 1) Ativação lista fundamental 2) Conserte numbers1
3) Volume tocando 4) Suplementares 5) Telefônico idioma 6) Chame desvie
Tradução do fabricante
– 1) Lista teclas ativ. 2) Nos. de serviço 3) Volume
do toque musical 4) Extras 5) Idioma do telefone 6) Desvio de chamadas
Comentários – Em alguns casos, aqui se repete o problema de sentidos
diferentes de uma mesma palavra no original exigirem traduções diferentes em
português, porém com o agravante de as traduções poderem provocar mudança de
classe de palavras e, portanto, terem implicações sintáticas. Em outros casos,
mesmo sendo usado um único sentido no original, o programa não reconhece a
classe em que ele está sendo empregado e gera traduções inadequadas (p.ex.:
“multimídia”).
No exemplo 1, observamos que consta no dicionário a tradução
“fundamental” para “key”, o que faz com que o sistema gere a tradução “lista
fundamental”, sem conseguir estabelecer relação entre o sintagma “key list” e a
palavra “activation”. A interpretação de “key” como adjetivo, apesar de possível,
PUC-Rio - Certificação Digital Nº 0410515/CA
94
foge do sentido mais freqüente nos domínios de informática e de telefonia, que é
“tecla”. Observe ainda que este item apresenta uma característica bastante
específica do mercado de localização: a restrição do número de caracteres na tela
do aparelho faz com que seja necessário abreviar a tradução, como demonstra a
tradução do fabricante “ativ.”. Além da abreviação da palavra “ativação”, a
restrição de espaço gera um sintagma malformado em português, sem uso de
preposição entre as palavras “lista” e “teclas”.
Outro exemplo é o da palavra “multimídia”. O item de interface
“Multimedia msgs.” foi traduzido pelo programa como “Msgs de multimídias” e
pelo fabricante como “Mens. multimídia”. Provavelmente, a palavra “multimedia”
consta no dicionário como substantivo, apesar de ser usada muito mais
freqüentemente como adjetivo neste domínio.
Já o exemplo 2 representa um problema bastante freqüente neste corpus:
muitos sintagmas nominais não foram reconhecidos como tal e foram traduzidos
como sintagmas verbais. Esse é um problema especialmente interessante no
contexto de itens de interface, especialmente em menus, em que há uma
freqüência alta de sintagmas nominais desse tipo.
Este caso exemplifica duas suposições que podemos fazer sobre o sistema a
partir da observação do manual traduzido:
as palavras não-reconhecidas pelo sistema são interpretadas como
substantivos, como aconteceu com “numbers”, que não foi reconhecida
nesta ocorrência porque havia o algarismo “1” junto a ela, indicando uma
nota de rodapé no original;
se a palavra que antecede ou que sucede um substantivo puder ser um
verbo, o sistema emprega esta opção. Como “numbers” não foi
reconhecido e foi tomado como substantivo, “service” assumiu a forma
verbal “consertar”.
Outros exemplos provocados por palavras que não constavam no dicionário
são: “Anykey respondem” (no original, “Anykey answer”), “Dialled numera”
(“Dialled numbers”), “Conserte inbox” (“Service inbox”).
Já “Chame duração” (“Call duration”) e “Exiba brilho” (“Display
brightness”) são exemplos da priorização da forma verbal de palavras que
constam no dicionário, mas podem ser empregadas em mais de uma classe
PUC-Rio - Certificação Digital Nº 0410515/CA
95
gramatical. Se elas ocorrem com substantivos, parece haver uma priorização pela
forma verbal, em vez de o sistema assumir que seja um sintagma nominal do tipo
“substantivo + substantivo”.
O exemplo 3 trata das ocorrências das formas com o sufixo “-ing”. Esse
sufixo polissêmico em inglês apresenta dificuldades de tradução até mesmo para
tradutores humanos, portanto sua formalização para a máquina também não é
simples. Mais uma vez, consideramos que o ideal seja analisar as ocorrências
deste sufixo em grandes corpora deste domínio para observar seu comportamento
a fim de criar regras com base nas constatações.
Nas ocorrências da forma “ing” no corpus, a maioria dos casos foi
interpretada pelo programa como gerúndio, como no exemplo “Volume tocando”.
Isso parece indicar que haja uma priorização desta forma verbal. No entanto,
observamos um predomínio do caráter atributivo nestes sintagmas nominais com a
forma “-ing + substantivo”, que normalmente são traduzidas como locução
adjetiva (“Volume de toque musical” como tradução do fabricante para “Ringing
volume”) ou adjetivo (“alerta vibratório” como tradução do fabricante para
“Vibrating alert”) em português.
Já “call waiting” foi traduzido pelo programa da mesma forma que
encontramos no manual do fabricante: “Espera de chamada”. Isso provavelmente
ocorreu porque “waiting” como substantivo é uma forma dicionarizada (Random
House Dictionary, 1996).
O exemplo 4, “Extras”, parece indicar que o dicionário tem algum tipo de
prioridade em relação a determinadas regras gramaticais do programa. A tradução
“Suplementares” indica a preferência pela forma adjetiva, o que parece pouco
usual para uma palavra isolada. É provável que “extra” esteja primeiramente
classificado como adjetivo no dicionário do programa, seguindo a classificação
dos dicionários tradicionais em português (Dicionário Houaiss, 2001; Dicionário
Aurélio; 1999).
No exemplo 5 e observando outras ocorrências no manual, parece haver
uma regra que prioriza a tradução de “phone” como adjetivo quando ele coocorre
com substantivos. Contudo, o uso mais freqüente não é como adjetivo e sim como
substantivo, na locução “de/do telefone” (como “Idioma do telefone”), empregado
como sinônimo de “aparelho”.
PUC-Rio - Certificação Digital Nº 0410515/CA
96
Consideramos também curioso que o adjetivo “telefônico” tenha sido
colocado antes do substantivo “idioma”, o que contradiz a regra geral do
português de posposição do adjetivo ao substantivo, aplicada em outras traduções
do programa.
No exemplo 6, observamos o emprego, no texto original, de uma palavra
numa classe gramatical não-usual, ainda não-dicionarizada em inglês, como
“divert”, em “call divert”. Este termo foi traduzido pelo fabricante como “desvio
de chamada” e é bastante recorrente em outros textos deste domínio encontrados
na internet. Como “divert” está dicionarizado somente como verbo, o programa
não consegue resolver o sintagma satisfatoriamente e o traduz como “chame
desvie”.
Solução – O não-reconhecimento da classe gramatical costuma ser
entendido como um problema de análise sintática (conhecida como parser na área
de processamento de linguagem natural). No caso deste tradutor automático, os
problemas de parsing são resolvidos com a elaboração de regras. Como não temos
acesso às regras gramaticais do programa, não podemos propor soluções mais
abrangentes, mas podemos observar que a priorização de regras do tipo “verbo +
substantivo” ou “substantivo + verbo”, por exemplo, gera problemas em relação
às palavras que têm a mesma forma em inglês para classes gramaticais diferentes,
como mostram os exemplos anteriores.
É possível que uma abordagem mais voltada para o léxico, com a
determinação da freqüência de determinadas palavras no domínio, fosse útil
também nesse caso. A palavra “key” é mais freqüentemente traduzida como o
substantivo “tecla” do que como o adjetivo “fundamental” neste contexto, assim
como “service” é mais recorrente como “serviço” do que como o verbo
“consertar”, e “multimedia”, como adjetivo do que como substantivo. Outros
exemplos são: “endereço” como tradução de “address”, em vez de “dirigir”, e
“recebida” (chamada, ou mensagem, recebida) como tradução de “incoming”, em
vez de “entrante”. Dessa forma seria possível priorizar os usos mais freqüentes no
domínio e diminuir o número de correções na pós-edição.
Outras soluções que podemos propor são:
PUC-Rio - Certificação Digital Nº 0410515/CA
97
um estudo do comportamento do sufixo “-ing” para a
elaboração de regras mais precisas e para confirmação da
nossa hipótese de que este sufixo desempenha mais
freqüentemente um papel atributivo quando ocorre em
sintagmas nominais antes de um substantivo;
a criação de uma regra para que a forma adjetiva não seja
priorizada caso a palavra também possa ser um
substantivo e ocorra isoladamente, como “Extras”. (Essa
solução também precisa ser verificada em corpus.);
a alteração da prioridade da forma adjetiva de “phone” no
dicionário ou até mesmo sua exclusão, caso um estudo de
freqüência confirmasse nossa hipótese de que essa forma
adjetiva é pouco recorrente;
a inclusão do termo “call divert” no dicionário com a
tradução “desvio de chamada”, como um termo
específico do domínio.
Em relação à abreviação decorrente da restrição de caracteres, podemos
supor duas soluções: a implantação de um sistema automático que elimine os
caracteres excedentes, ou a atribuição da abreviação a tradutores ou revisores
humanos. Essa última opção provavelmente garantirá melhores resultados, mais
inteligíveis para os usuários, além de dispensar a incorporação de mais um sistema
para o corte automático dos caracteres excedentes.
a.2) Não-diferenciação entre particípio e pretérito perfeito
Exemplo:
Original – All sent data
Tradução automática – Tudo enviaram dados
Tradução do fabricante – (Não disponível)
Tradução sugerida – Todos os dados enviados
Comentários – A coincidência de forma entre o particípio e o pretérito
perfeito “sent” confunde o sistema, que opta pela tradução do pretérito perfeito
“enviaram”. Podemos inferir que esta opção seja determinada por uma regra
gramatical que priorize o pretérito perfeito sempre que o verbo seja precedido por
PUC-Rio - Certificação Digital Nº 0410515/CA
98
uma forma nominal que possa ser interpretada como sujeito, como é o caso de
“all”.
A esse respeito, podemos observar que a ocorrência do pretérito perfeito do
indicativo, por ser uma forma verbal mais típica de narrativa (Koch, 1993), será
pouco provável num manual, em que podemos observar a predominância do modo
imperativo ou do infinitivo (principalmente nas instruções) e das formas do
presente do modo indicativo (nas descrições de recursos e características do
produto).
Solução – Uma opção para solucionar o problema seria criar regras mais
elaboradas para evitar a interpretação do verbo como pretérito perfeito, a partir da
análise das formas nominais que a precedem e das palavras que se seguem ao
verbo, como outros substantivos ou advérbios, por exemplo. Uma rápida
verificação do emprego da terminação “-ram” (terceira pessoa do plural do
pretérito perfeito do indicativo, como armazenaram, enviaram, receberam etc) ao
longo do manual corrobora a suposição de que a presença de uma forma nominal
(e também de formas desconhecidas pelo dicionário, que são sempre interpretadas
como formas nominais) determina a opção pelo pretérito perfeito. Contudo, em
nenhuma ocorrência essa regra gerou uma tradução correta, sendo sempre a forma
do particípio que deveria ter sido empregada.
Outra solução mais simples, se aceita pelo sistema, seria priorizar sempre o
particípio. Apesar de exigir uma análise mais detalhada, por poder acarretar outros
problemas, é provável que nesse contexto essa solução reduzisse o número de
correções necessárias durante a pós-edição.
a.3) Ordem das palavras no sintagma
Exemplos:
Original – 1) Closed user group 2)Add new contact 3) Delete recent call
lists 4) Time and date settings
Tradução automática – 1) Grupo de usuário fechado 2) Some contato novo
3) Apague recentes listas de chamada 4) Tempo e colocações de data
Tradução do fabricante – 1) Grupo fechado de usuários 2) (Não disponível)
3) Excluir listas chamadas recentes 4) Configurações de data e hora
PUC-Rio - Certificação Digital Nº 0410515/CA
99
Tradução sugerida - 2) Adicionar novo contato
Comentários – Neste tópico, podemos observar a complexidade da tarefa de
reconhecimento e interpretação de sintagmas nominais um pouco mais complexos
em inglês, bem como a dificuldade para determinar a distribuição mais adequada
das palavras na tradução.
No primeiro exemplo, a dificuldade está em determinar que “closed” está
relacionado a “group” e não a “user”. O sistema parece seguir uma regra de
inversão do sintagma do último para o primeiro substantivo, gerando a tradução
“usuário fechado”, que, apesar de inteligível, pode provocar estranhamento para o
leitor.
No segundo caso, parece ser aplicada a regra de posposição do adjetivo ao
substantivo em português. Contudo, como discutimos em Ribeiro&Dias (2005),
esta regra geral não se aplica em todos os casos. Alguns adjetivos têm seu
significado alterado dependendo da distribuição no sintagma e do substantivo com
que são empregados. Alguns exemplos tradicionais são “um grande homem”, em
oposição a “um homem grande”, e “uma boa mulher”, em oposição a “uma
mulher boa”.
No caso de “Some contato novo”, apesar de sua tradução não constar no
manual fornecido pelo fabricante, a análise de outras ocorrências ao longo do
manual, como “novo aplicativo”, “novo código PIN”, “novo conteúdo” e “novo
participante” reforça a hipótese de que a tradução mais comum neste caso seria
“(Adicionar) novo contato”. A preferência pela anteposição do adjetivo, neste
caso, pode ser explicada pelo fato de promover uma leitura mais subjetiva, ao
passo que “contato novo” sugerir uma interpretação mais objetiva. “Novo
contato” indicaria um contato que ainda não consta na agenda, ao passo que
“contato novo” poderia ser interpretado como um contato incluído na agenda
recentemente.
Incluímos o terceiro exemplo, “Apague recentes listas de chamada”, porque
não conseguimos compreender a forma como o sistema resolveu o sintagma
“recent call lists”. Além de não adotar a regra geral de posposição do adjetivo, o
sistema parece interpretar “call lists” como um sintagma e só depois relaciona-o
ao adjetivo “recent”, quando de fato “recent” está relacionado a “call”.
PUC-Rio - Certificação Digital Nº 0410515/CA
100
O último exemplo, “Tempo e colocações de data”, demonstra mais uma vez
a dificuldade de reconhecimento dos sintagmas e de determinação das relações
estabelecidas pelas palavras que o compõem. Se, nos casos anteriores, “closed”
estava relacionado somente a “user” e “recent” a “call”, neste exemplo “settings”
está relacionado tanto a “time” quanto a “date”.
Solução – Assim como em muitos aspectos do processamento de linguagem
natural, neste caso não é possível determinar uma solução pontual. Martins et al.
(2004) identificam a questão da “[...] ordem dos itens lexicais na sentença
(principalmente no interior dos sintagmas nominais) [...]” como um dos principais
desafios para o processamento de linguagem natural e os exemplos acima parecem
corroborar essa constatação. Somente com base em estudos mais aprofundados
sobre sintagmas será possível tentar inferir padrões de comportamento para a
elaboração de regras ou para a inclusão de informações ou termos no dicionário.
A identificação de sintagmas mais freqüentes no domínio, como aqueles que
envolvam a palavra “call”, por exemplo, poderá ser útil para sua inclusão no
dicionário, evitando, assim, que cada palavra seja interpretada separadamente.
No caso do adjetivo “novo”, pode ser útil criar uma regra para sua
anteposição.
Para uma discussão mais aprofundada sobre o processamento de adjetivos
em português, duas referências são Pria (2005) e Di Felippo (2004).
a.4) Emprego do artigo definido
Exemplos:
Original
– Data sent in last session 2) All call’s duration
Tradução automática
– 1) Dados enviaram em última sessão 2) A duração
de todas as chamadas
Tradução do fabricante
– (Não disponível)
Tradução sugerida
– 1) Dados enviados na última sessão 2) Duração de
todas as chamadas
Comentários – O emprego de artigos representa uma dificuldade não só para
a tradução automática, mas também para tradutores humanos. O uso é diferente
em inglês e em português, variando em termos de referência (genérica ou
específica) e de substantivos contáveis ou não-contáveis. Um exemplo simples é a
PUC-Rio - Certificação Digital Nº 0410515/CA
101
estrutura “He’s a translator”, que deve ser traduzida como “Ele é tradutor”, sem o
artigo (Frota&Britto, inédito).
No primeiro exemplo citado, observamos a falta do artigo definido “a” em
contração com a preposição “em” antes do sintagma “última sessão”. Analisando
outras ocorrências no manual, pudemos inferir que o artigo só é incluído quando o
artigo definido “the” está presente no original também. Um exemplo é “Sticker in
the sales package”, traduzido como “Adesivo no pacote de vendas”. Daí, podemos
inferir que há regras para fazer a contração da preposição com o artigo e para
identificar a referência do artigo, para determinar o gênero e o número.
Já no segundo exemplo, o artigo “a” deveria ser retirado do sintagma “a
duração de todas as chamadas” porque no mercado de localização não se costuma
usar artigo definido nas opções de interface. Além disso, observando os outros
empregos indevidos de artigo no corpus, supomos que a inclusão deste artigo
definido esteja relacionada a alguma regra referente ao caso possessivo, indicado
pela apóstrofe em inglês, já que esse sinal estava presente nas outras ocorrências
também.
Solução – Como comentamos, o emprego de artigos apresenta dificuldade
para tradutores humanos também, então é pouco provável que haja uma solução
pontual ou simples. O mais recomendável seria realizar uma pesquisa detalhada,
num corpus expressivo, para tentar observar os padrões de tradução dos artigos
para estabelecer regras a partir deles.
No segundo caso, primeiramente é preciso verificar se de fato há uma regra
determinando a inclusão do artigo definido com o possessivo. Se houver, a regra
deve ser alterada.
a.5) Concordância de gênero e número
Exemplos:
Original – 1) All 2) Missed
Tradução automática – 1) Tudo 2) Perdido
Tradução do fabricante – (Não disponível.)
Tradução sugerida – 1) Todas 2) Não atendidas
Comentários
– Esta questão morfológica da não-determinação do gênero e
do número de certas palavras em inglês representa um desafio não só para a
PUC-Rio - Certificação Digital Nº 0410515/CA
102
tradução automática, mas também para o tradutor humano, e tem implicações
sintáticas, por conta da concordância.
Sem avaliação do contexto, na tradução de uma lista de menu isoladamente,
não é possível resolver a ambigüidade de “All”, para determinar se a tradução
deve ser “Tudo”, “Todos” ou “Todas”, e de “Missed”, para optar entre “Perdido”,
“Perdidos”, “Perdida”, “Perdidas” ou “Não atendido”, “Não atendidos”, “Não
atendida”, “Não atendidas”, por exemplo.
No caso analisado, pudemos verificar no manual que “All” e “Missed”
referem-se ao termo “chamada”, por isso sugerimos as traduções “Todas” e “Não
atendidas” (alguns aparelhos disponíveis no mercado usam “Perdidas”).
Esse é um caso de ambigüidade específico, especialmente relevante no
mercado de localização. Em muitos produtos, encontramos termos como esses
aplicados a várias situações diferentes. Em inglês, a palavra “All” poderia ser
utilizada em seguida aos menus “Delete calls?” (“Apagar chamadas?”) ou
“Organize appointments” (“Organizar compromissos”), por exemplo, ao passo
que em português seria necessário ter a tradução “Todas” no primeiro caso e
“Todos” no segundo. Se a internacionalização do produto não for planejada, a
utilização desse mesmo item de interface em vários contextos representará um
problema na localização do produto em outros idiomas.
Solução – Provavelmente o programa que utilizamos não faz análise do
contexto, portanto, a determinação da tradução adequada terá de ser feita por um
tradutor humano durante a pós-edição.
b) Sintagmas verbais
b.1) Regência verbal
Exemplos:
Original
– 1) Listen to voice messages 2) Send my caller ID
Tradução automática
– Escute para expressar mensagens 2) Envie para meu
visitante ID
Tradução do fabricante – 1) Ouvir mensagens de voz 2) Enviar minha ID de
chamada
Comentários
– No caso de “listen to”, inicialmente supomos que fosse um
erro de dicionário, que apresentasse apenas “listen”, como a tradução “escutar”,
fazendo com que a partícula “to” fosse interpretada independentemente do verbo,
PUC-Rio - Certificação Digital Nº 0410515/CA
103
como sendo a preposição “para” isolada. Contudo, a verificação das outras
ocorrências de “listen to” no manual mostra que a partícula “to” é omitida da
tradução sempre que o verbo é seguido por um substantivo que é seu
complemento. Um exemplo é “[...] listen to a sound [...]”, traduzido como
“[...] escutar um som [...]”. Supomos, então, que a partícula “to” tenha levado o
sistema a interpretar que “voice” fosse um verbo, traduzindo-a como “para”. Esse
é um caso especialmente complexo, dado que, de fato, poderíamos ter uma
estrutura em que “listen” tivesse uma oração como complemento, como “Listen to
choose” (“Ouça para escolher”), num menu de opções, por exemplo.
No caso de “send”, apesar de não haver a partícula “to” no original,
podemos supor que haja uma regra que identifique se o complemento do verbo é
humano e, em caso afirmativo, considere esse complemento humano como objeto
indireto. Uma regra desse tipo evitaria que uma frase como “Send the user a
message” fosse interpretada como “Envie o usuário uma mensagem”, por
exemplo. Essa suposição parece fazer sentido nesse caso, já que “caller” consta no
dicionário como “visitante” mas foi traduzida como “chamada” no exemplo.
Outra possibilidade é que a presença da sigla “ID” (de “identification”),
provavelmente não reconhecida pelo sistema, tenha afetado a interpretação da
oração.
Ainda sobre a partícula “to” vale comentar que aparentemente existe uma
regra para que ela seja ignorada antes de verbos no início do período. No entanto,
a generalização dessa regra gera problemas numa estrutura bastante recorrente em
manuais de instruções, exemplificada por “To make another call, press ‘Options’”.
Na tradução automática, a partícula “to” foi retirada, resultando na seguinte
tradução: “Fazer outra ligação, aperta Opções”.
Solução
– Este caso exigiria a análise do comportamento desses e de outros
verbos e partículas similares em inglês e de suas respectivas traduções, a fim de
identificar mais características que pudessem contribuir para a elaboração de
regras mais precisas.
Inicialmente, seria recomendável revisar as regras já existentes no sistema
envolvendo os verbos “listen” e “send” e a partícula “to” e observar a
possibilidade de fazer alterações pontuais que minimizassem os problemas
identificados aqui.
PUC-Rio - Certificação Digital Nº 0410515/CA
104
2.2.1.3.4 Morfologia
No corpus analisado, não foram encontrados erros de morfologia.
(Reiteramos que as categorias de "Interoperabilidade" a "Coexistência"
(2.2.1.4 a 2.2.6.5), referentes ao software, foram retiradas porque requeriam
acesso ao software.)
2.2.7 Custo
A taxonomia não apresenta uma definição do que deve ser considerado nas
categorias de avaliação dos custos. Comentaremos alguns aspectos que
consideramos relevantes.
Talvez mais drasticamente do que em outras áreas de tradução, o fator custo
assume um papel decisivo no mercado de localização, com a freqüente pressão
dos clientes finais para a redução do custo do processo como um todo e a
conseqüente redução dos preços praticados pelas agências para a remuneração dos
profissionais. A diminuição dos prazos também seria interessante neste mercado
tão competitivo e com produtos com ciclo de vida tão curto, mas sem dúvida a
redução de custo é o fator determinante para o investimento em TA.
2.2.7.1 Custo inicial
O investimento na aquisição do sistema já foi realizado pela empresa
proprietária do programa. Consideramos que será necessário um investimento
prévio relativamente pequeno nos ajustes básicos de dicionário e regras. Esses
ajustes já devem representar uma melhoria significativa, possibilitando uma
avaliação mais realista do desempenho do sistema e das adaptações necessárias
para a integração da TA ao processo de localização.
Outro investimento necessário nessa fase inicial seria a avaliação técnica da
capacidade de integração do sistema com as memórias de tradução e da sua
compatibilidade com outros formatos de arquivos além de txt.
2.2.7.2 Custo de manutenção
Em relação ao software e ao hardware, não deve haver um aumento
significativo de custo com manutenção, já que ela possivelmente poderá ser
realizada pelos técnicos atualmente responsáveis pelos outros equipamentos e
softwares da empresa.
PUC-Rio - Certificação Digital Nº 0410515/CA
105
2.2.7.3 Outros custos
Outro custo que deve ser considerado são os gastos com pessoal. Seja na
preparação dos originais, na utilização do sistema de TA, na pós-edição, na
elaboração e na atualização dos dicionários e das regras do sistema ou na
editoração final, o investimento no treinamento e na remuneração de profissionais,
internos ou terceirizados, será um fator decisivo a ser avaliado e comparado aos
investimentos feitos no processo como ele é realizado hoje, sem a utilização de
TA.
A categoria Custo finaliza a taxonomia do FEMTI. Na medida do possível,
é importante que se faça esse tipo de investimento para acompanhar os avanços
tecnológicos e as novas tendências do mercado e as demandas dos clientes. Como
afirmam Martins&Nunes (2005:23):
Longe de conduzir ao imobilismo, pois, o reconhecimento das limitações da
tradução automática tem alimentado os desenvolvedores, certos de que apenas a
experimentação poderá produzir, neste caso, o conhecimento necessário para a
implementação (futura) de sistemas bem-sucedidos.
4.2.
Casos diversos
Nesta categoria, incluímos outros problemas lingüísticos relevantes que
ocorreram no corpus, cuja natureza não pudemos determinar nesta análise,
impedindo que elas fossem comentadas dentro das categorias da avaliação
conduzida na seção anterior. Foram sugeridas soluções sempre que possível.
Caso 1 – sigla GPRS
Comentários - Observando as traduções dos três itens de interface em que
constava essa sigla, observamos o seguinte comportamento: “GPRS connection”
foi traduzido como “Conexão de GPRS”. A interpretação do sintagma está
correta, apesar de a preposição “de” não ser usada neste contexto, como discutido
a respeito das siglas. No entanto, os itens de interface “GPRS connection timer” e
“GPRS data counter” foram traduzidos como “GPRS conexão cronômetro” e
“GPRS dados contador”, respectivamente. Não conseguimos elaborar uma
hipótese para o fato de, no primeiro item, o sistema ter sido capaz de reconhecer o
PUC-Rio - Certificação Digital Nº 0410515/CA
106
sintagma “GPRS connection” corretamente, mas não reconhecer este mesmo
sintagma em “GPRS connection timer”. Da mesma forma, teríamos suposto que o
sintagma “GPRS data” fosse reconhecido pelo sistema, o que não se confirmou.
Como o sistema foi capaz de reconhecer e tratar adequadamente outros sintagmas
com três substantivos, mesmo nos casos em que um dos substantivos não constava
no dicionário, supomos que a presença da sigla tenha confundido o sistema.
Solução – Novamente, uma solução pontual seria incluir os sintagmas
completos no dicionário, como “GPRS connection” e “GPRS data”.
Caso 2 – Outbox
Comentários – Na lista de menus, há apenas uma ocorrência deste termo,
mas verificamos que nas outras duas ocorrências dele no manual foi utilizada a
mesma tradução: “Exceda em boxe”. Não foi possível concluir por que o sistema
interpretou esta palavra como um sintagma verbal, já que as outras palavras
desconhecidas foram mantidas em inglês e interpretadas como substantivos. Uma
hipótese é que esta tradução conste no dicionário, mas como a tradução não faz
sentido em português, achamos pouco provável que ela tenha vindo de algum
dicionário ou tenha sido incluída por um tradutor humano.
Solução – Inclusão ou correção da tradução para “Caixa de saída” no
dicionário.
Caso 3 – Phone settings
Comentários
– Repetimos aqui este item já comentado na discussão sobre
classes de palavras porque a tradução “Telefônicas colocações” representa um
problema que observamos, mas não conseguimos identificar a causa. Apesar de
ter sistematicamente posposto o adjetivo ao substantivo na tradução, neste
exemplo o adjetivo fica anteposto, gerando uma estrutura incomum em português
ainda que tivesse sido usada a tradução “configurações” para “settings”, mais
freqüente neste domínio.
Solução
– Seria preciso verificar a regra de colocação do adjetivo. A
interpretação de “phone” como adjetivo é muito menos freqüente neste domínio e,
portanto, não deveria ser priorizada no dicionário.
Caso 4 – Message alert tone
Comentários – Como o sistema foi capaz de interpretar outros sintagmas
nominais com três ou mais substantivos, não entendemos por que neste caso ele
PUC-Rio - Certificação Digital Nº 0410515/CA
107
gerou a tradução “Mensagem tom alerta”. Observando outras traduções de “alert”,
vimos que a palavra foi interpretada como adjetivo sempre que havia outro
substantivo junto a ela, como é o caso de “tone”. Mesmo assim, a regra geral que
pudemos inferir geraria a tradução “tom alerta de mensagem” ou “mensagem de
tom alerta”, conseguindo estabelecer alguma relação entre “tone alert” e
“message”, o que não ocorreu neste caso. A única hipótese que conseguimos
imaginar é que o sistema tenha interpretado “alert tone” como o nome da
mensagem, como se fosse um título. Para tal, seria necessário que ele tivesse uma
regra com esta instrução, aplicável a determinados tipos de palavras que pudessem
ser seguidas de seus nomes, o que parecer pouco provável.
Solução – Alteração no dicionário da tradução de “alerta”, priorizando a
forma do substantivo em vez do adjetivo.
Caso haja de fato uma regra para que as palavras que se seguem a
“Mensagem” ou determinados substantivos sejam interpretadas como títulos ou
nomes, seria necessário revisar esta regra.
Caso 5 – As palavras “call”, “service”, “display” e “clear”
Comentários – Estas palavras poderiam ter sido incluídas nos tópicos de
análise sobre alteração de classe gramatical ou de terminologia do domínio. No
entanto, na comparação das traduções atribuídas a elas, observamos alguns
problemas para os quais não foi possível supor uma causa. Como esses são termos
recorrentes no contexto de telefonia celular, consideramos especialmente
relevante discuti-los.
O termo “service” foi traduzido como “serviço” sempre que foi interpretado
como substantivo e como “consertar” sempre que foi interpretado como verbo. Já
o termo “clear” foi traduzido como “claro”, quando interpretado como adjetivo, e
como “clarear”, quando interpretado como verbo.
No caso de “service”, verificamos que nesse corpus nenhuma ocorrência era
de fato a forma verbal. Contudo, ela sempre foi empregada quando “service”
precedia ou sucedia algum substantivo, o que nos faz supor que o sistema não
considere a possibilidade de a estrutura ser um sintagma nominal da forma N+N
(substantivo com substantivo, como “Service numbers” ou “Info service”), caso
alguma das duas palavras também possa ser um verbo. Contudo, essa
PUC-Rio - Certificação Digital Nº 0410515/CA
108
possibilidade é a mais freqüente, especialmente no caso dos itens de interface
analisados, em que predominam sintagmas nominais.
Apesar do predomínio dos sintagmas nominais na lista de menus, não é
possível criar uma regra geral para priorizá-los, já que muitos termos que
poderiam ser substantivos ou adjetivos aqui são empregados como verbos, como é
o caso de “clear”. O termo foi usado no original como verbo nas três ocorrências,
mas foi interpretado como adjetivo pelo sistema em duas delas, “Clear counters”,
traduzido como “Contadores claros”, e “Clear timers”, traduzido como
“Cronômetros claros”. A ocorrência “Clear the cache” foi traduzida como
“Clareie o esconderijo”. Podemos supor que a presença do artigo “the” tenha
induzido o programa a reconhecer o sintagma verbal. Já nas outras duas
ocorrências, uma hipótese é que a hierarquia de regras do sistema priorize a
interpretação como adjetivo em vez de verbo quando ambos forem possíveis. Vale
comentar ainda o problema das escolhas lexicais, que nesse contexto deveriam ser
“zerar” ou “limpar”, para “clear”, e “cache” para “cache”, em vez de
“esconderijo”.
Já os casos de “display” e “call” parecem representar um desafio ainda mais
complexo, pela variedade de estruturas em que essas palavras ocorrem. Se nos
casos anteriores conseguimos identificar que, pelo menos nesse corpus, “service”
ocorre somente como substantivo e “clear” somente como verbo, nos casos de
“display” e “call” é fácil pensar em várias formas possíveis e muito freqüentes
nesse domínio (mesmo que elas não tenham ocorrido no corpus), o que torna a
formalização mais difícil. Temos sintagmas nominais, como “Call duration”,
“Call register” e “Display brightness”, traduzidos pelo fabricante como “Duração
da chamada”, “Registro de chamada” e “Brilho da tela”, respectivamente, mas
interpretados pelo sistema como sintagmas verbais, traduzidos como “Chame
duração”, “Chame registro” e “Exiba brilho”. Contudo, como vimos
anteriormente, não é possível priorizar os sintagmas nominais, já que “call” e
“display” são freqüentemente empregados em sintagmas verbais nesse contexto,
como “Call” (“Chamar”), “Call number” (“Chamar número”), “Display”
(“Exibir”) e “Display contact” (“Exibir número”), por exemplo.
Outro caso curioso envolvendo a palavra “call” foi “Last call duration” que
foi traduzido pelo programa como “Por último chame duração”. Como “last” foi
PUC-Rio - Certificação Digital Nº 0410515/CA
109
interpretado como adjetivo em outras ocorrências e “call” como substantivo, não
compreendemos por que o sintagma nominal “last call” não foi reconhecido neste
caso. É possível que a ocorrência de “last” junto com uma palavra que possa ser
verbo induza a sua interpretação como advérbio.
Solução – Nesses casos não foi possível sugerir soluções específicas.
Consideramos necessário que esses termos sejam analisados em corpora maiores
e contextos variados, a fim de que suas características sejam observadas mais
detalhadamente para que seja possível fazer as alterações pertinentes nas regras ou
no dicionário do sistema.
4.3.
Acertos do programa
Dos 144 itens de interface da lista de menu, 29 foram traduzidos
corretamente pelo programa, com a mesma tradução encontrada no manual do
fabricante. Desses 29, 18 eram palavras isoladas, o que indica que elas constam no
dicionário. As 11 restantes exigiam algum nível de análise sintática, que deve ter
sido resolvido pelas regras gramaticais.
Em quatro casos havia total correspondência entre a estrutura sintática em
inglês e em português, portanto não houve necessidade de uma análise sintática
mais elaborada. Desses, dois envolviam a estrutura “substantivo 1 + preposição +
substantivo 2” como “Memory in use” (“Memória em uso”), um continha um
pronome adjetivo antes do substantivo 2 (“Duration of all sessions”, cuja tradução
sugerida é “Duração de todas as sessões”) e o último tinha a estrutura “pronome +
substantivo” (“My numbers”, “Meus números”).
Nos outros sete casos, as alterações sintáticas eram simples e as estruturas
envolviam sintagmas nominais com apenas duas palavras. Cinco tinham a
estrutura “substantivo 1 + substantivo 2”, como “Security level”, resolvidos
satisfatoriamente com uma regra de inversão do tipo “substantivo 2 ‘de’
substantivo 1” (“Nível de segurança”). Um apresentava a estrutura “adjetivo +
substantivo”, resolvida também com a inversão “substantivo + adjetivo”
(“Personal shortcuts”, “Atalhos pessoais”) e o último tinha a estrutura “particípio
+ substantivo” resolvida também com a inversão “substantivo + particípio”
(“Received calls”, “Chamadas recebidas”).
PUC-Rio - Certificação Digital Nº 0410515/CA
110
Com esses casos, foi possível inferir algumas regras básicas que o programa
deve possuir, com algum nível de refinamento, como concordância de gênero e
número. Contudo, como vimos na análise dos problemas, essas regras nem sempre
são suficientes para resolver sintagmas mais complexos. Mais do que isso, elas
parecem corroborar o que Martins et al. (2004) afirmam sobre outros tradutores
automáticos por eles avaliados: “esta aparente eficiência esconde a verdadeira
razão do sucesso: a proximidade entre as construções do inglês do português” (p.
42). Como vimos, quanto menos parecidas as estruturas das duas línguas, menos
eficiente é uma lógica de tradução mais próxima da tradução direta, praticamente
palavra por palavra.
4.4.
Comentários finais
Neste capítulo, aplicamos parte da taxonomia do FEMTI para fazer uma
avaliação inicial do tradutor automático utilizado na pesquisa.
A respeito dos aspectos contextuais, observamos a relevância das
características do texto de entrada e do usuário (os profissionais que já atuam no
mercado de localização), que terão de se adaptar à TA como uma nova ferramenta
de trabalho.
Já para a análise lingüística, apresentamos exemplos em português retirados
da tradução da lista de menus do aparelho apresentada no manual. Observamos
que muitos dos problemas discutidos nas tipologias do capítulo 3, como a
homonímia, ocorrem nesse corpus também e que muitas categorias do FEMTI são
semelhantes àquelas utilizadas no controle de qualidade no mercado de
localização de software (apresentadas no capítulo 2), como precisão, uniformidade
e terminologia. A diferença nesse último caso está no enfoque e no peso que será
dado a cada categoria, tendo em vista que no mercado de localização a avaliação
da qualidade é voltada para tradutores humanos e aqui, para o software de
tradução automática.
Consideramos que os aspectos discutidos com base no FEMTI e nas
subcategorias propostas são relevantes para um estudo inicial das implicações do
uso do tradutor automático no mercado de localização. O aprofundamento das
questões aqui propostas e a avaliação das categorias que não analisamos
PUC-Rio - Certificação Digital Nº 0410515/CA
111
(referentes aos aspectos técnicos do software) poderão ser realizados pela empresa
ou em futuras pesquisas acadêmicas, estreitando a parceria entre o mercado de
trabalho e a universidade.
Em termos contextuais, podemos concluir que a viabilidade de uso desse
tradutor automático no mercado de localização depende de uma análise interna da
empresa de como inseri-lo no processo de trabalho, considerando-se
especialmente sua relação com as ferramentas de memória de tradução e com os
diferentes formatos de arquivos (além de txt).
Em relação à avaliação lingüística, observamos que o sistema ainda
apresenta uma qualidade baixa, mas pode ser aprimorado com algum investimento
na elaboração ou na atualização de suas regras gramaticais e seus de dicionários.
Só será possível fazer uma avaliação de aspectos como legibilidade,
inteligibilidade, coerência e coesão depois que alguns ajustes básicos forem feitos
para minimizar os problemas no nível sentencial.
Alguns aspectos específicos da localização que precisarão estar refletidos
nas regras e nos dicionários são a terminologia (nesse caso, dos domínios de
informática e telefonia celular), o uso freqüente de siglas e abreviações, a
identificação das opções de interface (para que sejam traduzidas sempre da mesma
forma) e as especificidades lingüísticas das opções de interface, como a concisão e
o uso do modo infinitivo para os sintagmas verbais. Algumas características do
gênero manual, como o modo verbal empregado para as instruções, também
poderão ser identificadas e incluídas nas regras.
Na nossa análise, o dicionário desempenhou um papel central em relação à
qualidade lingüística do sistema. Como os menus contêm a terminologia principal
do telefone celular, grande parte dos acertos e dos erros dependeu do fato de os
termos constarem ou não no dicionário. Mesmo para algumas questões sintáticas
foi possível sugerir soluções baseadas no dicionário.
Em muitos casos, as soluções sugeridas baseavam-se em análises de
freqüência em corpus. Com isso, observamos que um recurso empírico, em teoria
divergente de um sistema baseado em tradução indireta por transferência, na
prática pode contribuir para a busca de resultados eficientes. Soluções baseadas
em freqüência em corpus podem ser aplicadas para a observação de muitos
PUC-Rio - Certificação Digital Nº 0410515/CA
112
padrões lexicais e sintáticos, contribuindo, assim, para a atualização dos
dicionários e das regras gramaticais do sistema.
Um exemplo de recurso que pode ser utilizado para a análise lingüística é o
Corpógrafo, desenvolvido pela Linguateca (Maia&Sarmento, 2005). Com essa
ferramenta gratuita é possível, por exemplo, gerar listas de n-gramas (palavras
que coocorrem com freqüência) e de candidatos a termo a partir de corpora, a fim
de incluí-los e priorizá-los no dicionário. Quanto maior for o corpus analisado,
mais representativa a lista será. Uma opção para a composição do corpus na área
de localização são as memórias de tradução que as empresas já possuem, que são
grandes corpora paralelos (textos originais alinhados às respectivas traduções). A
relevância do dicionário no nosso estudo mostra que os sistemas podem ser
significativamente aprimorados com a devida personalização dos próprios
recursos disponíveis para que eles reflitam as características do domínio (ou
domínios) de interesse e as necessidades dos usuários e dos consumidores da
tradução.
PUC-Rio - Certificação Digital Nº 0410515/CA
5
Conclusão
O objetivo do presente estudo foi fazer uma avaliação inicial da utilização
de um sistema de tradução automática no mercado de localização de software. Foi
usado o sistema de TA de uma empresa multinacional especializada em
localização. Para avaliá-lo, recorremos à taxonomia proposta pelo projeto FEMTI,
desenvolvido pelo ISLE (International Standards for Language Engineering), que
reúne muitos esforços de avaliação de TA e aplica as normas ISO/IEC para
avaliação de software. Para avaliar as categorias lingüísticas, utilizamos exemplos
retirados do corpus de pesquisa, formado por um manual do usuário de um
telefone celular. Dele, selecionamos a lista de menus, para avaliar como o tradutor
automático lida com as essas opções de interface.
Longe de esgotar as questões relacionadas ao uso de TA no mercado de
localização, este trabalho procurou fazer um levantamento inicial dos desafios a
serem enfrentados e das principais questões a serem consideradas para a
implementação efetiva da TA nesse contexto. Com a aplicação da taxonomia do
FEMTI, pudemos observar que, em relação ao contexto de uso, dois aspectos
principais precisam ser avaliados tecnicamente: a integração do sistema de TA às
ferramentas de memória de tradução e sua capacidade de aceitar arquivos de
outros formatos além de txt. Outro fator estratégico a ser considerado são os
custos de integração da TA ao processo de localização.
A partir dos exemplos que apresentamos para as categorias de avaliação
lingüística, foi possível observar que a qualidade ainda é baixa, mas pode ser
significativamente aprimorada com algum investimento na elaboração e na
atualização das regras gramaticais e sobretudo dos dicionários, que são as fontes
de conhecimento disponíveis nesse sistema. Nossos resultados corroboram os
estudos que demonstram que a TA pode representar redução de custo e aumento
de produtividade dentro de determinadas condições, como a aplicação em
domínios específicos. A delimitação do domínio e, no caso da localização, dos
procedimentos de trabalho (como adoção de guias de estilo e glossários) pode
PUC-Rio - Certificação Digital Nº 0410515/CA
114
favorecer a elaboração de regras e a atualização de dicionários. Com recursos
mais direcionados, a qualidade da tradução gerada deverá ser melhor, o que
reduzirá os esforços de pós-edição.
A identificação das características lingüísticas específicas do gênero e do
tipo de texto também pode contribuir para a elaboração de regras. Alguns
exemplos são as estruturas sintáticas usadas para apresentar instruções num
manual (p. ex.: “To make another call, press ‘Options’”), a restrição de espaço das
opções de interface de um software (p. ex.: “Multimedia msgs.”) e o uso do
imperativo na tradução de sintagmas verbais nas opções de interface (p. ex.:
“Create message”).
Apesar de alguns estudos indicarem melhores resultados com programas
que utilizam outras abordagens de TA, como a tradução indireta por interlíngua
(Martins et al, 2004) em vez da tradução indireta por transferência utilizada pelo
programa que avaliamos, nossos resultados sugerem que a identificação das
principais estruturas sintáticas e do vocabulário específico de um determinado
domínio, numa aplicação restrita como esta, pode melhorar sensivelmente os
resultados do programa. A delimitação do domínio comparece como uma solução
para diminuir a gama de sentidos que seriam possíveis na ausência de contexto.
Procuramos mostrar também que, apesar de a abordagem baseada em
transferência ter um embasamento teórico de cunho representacionista,
fundamentado na descrição das línguas e numa suposta correspondência entre
elas, estudos mais empíricos, baseados no uso, com a análise de freqüência em
corpora, podem trazer resultados mais rápidos e menos subjetivos do que a
descrição lingüística para a detecção de padrões lexicais e sintáticos, que poderão
embasar a elaboração de regras e a atualização dos dicionários. Esse enfoque
parece ser especialmente frutífero no mercado de localização, que dispõe de
grandes corpora paralelos, nas memórias de tradução, e de fontes relevantes para
a atualização dos dicionários, nos glossários, e das regras, nos guias de estilo. Em
vez de dedicar esforços à inclusão de linguagem geral e de soluções pontuais no
sistema, que depois precisam ser desambiguadas de acordo com o contexto, pode
ser mais eficiente retirar das gramáticas e dos dicionários tudo o que não for
específico do domínio e começar a construir regras e dicionários novamente com
PUC-Rio - Certificação Digital Nº 0410515/CA
115
base em freqüência no corpus do domínio e no material de referência, como
memórias de tradução, guias de estilo e glossários.
Finalmente, outras fontes valiosas de informações para o aprimoramento do
programa são as três avaliações do português apresentadas no capítulo 3, já que
muitos dos problemas discutidos nelas comparecem também em nosso estudo.
5.1.
Possíveis desdobramentos desta pesquisa
Como esse estudo relacionou duas áreas muito abrangentes e ainda pouco
exploradas no Brasil, as possibilidades de investigação a partir dele são inúmeras.
Alguns caminhos são: concluir a avaliação baseada no FEMTI, aprofundando as
categorias analisadas e avaliando aquelas que não foram contempladas; verificar
as questões discutidas em corpora maiores e que apresentem outras características
típicas do mercado de localização; incorporar ao sistema as soluções sugeridas e
verificar se elas funcionam e se têm implicações em outras estruturas e contextos;
procurar identificar outras características lingüísticas de manuais, arquivos de
ajuda e outros arquivos de interface com o usuário para tentar formalizá-las; fazer
um estudo de caso para verificar se a TA de fato representa um aumento de
produtividade nesse contexto (depois de feitos os ajustes básicos nos dicionários e
nas regras gramaticais do programa); fazer estudos sobre linguagem controlada e
pós-edição especificamente em português. Essas são apenas algumas das muitas
possibilidades visando resultados mais objetivos.
Em termos teóricos, os estudos da tradução apresentam uma série de
possibilidades para refletirmos sobre localização e sobre tradução automática. A
localização, que supõe a adaptação a uma língua e a uma cultura específicas, mas
na prática impõe uma série de limitações e pasteurizações ao texto traduzido,
pode ser tema de estudos descritivos de caráter sócio-cultural, por exemplo. Na
linha dos estudos pós-estruturalistas, podemos refletir sobre a ética nas relações
do tradutor com o cliente, com o público-alvo, com o autor (quem é o autor na
localização?) e com o revisor, para citar alguns exemplos. O professor Anthony
Pym, reconhecido pesquisador na área de tradução da universidade Rovira i
Virgili, na Espanha, tem publicado algumas reflexões sobre as possíveis
interações entre os estudos da tradução e a localização (Pym, 2003c, 2004), o
PUC-Rio - Certificação Digital Nº 0410515/CA
116
ensino de localização (Pym, 2003b) e as relações entre ética, tradução e tecnologia
(Pym, 2003b).
Outro caminho de estudo, que perpassa todas as discussões propostas aqui, é
o da filosofia. Em geral, os estudos na área de tradução automática e lingüística
computacional assumem um caráter muito pragmático, voltados para as aplicações
práticas. Os pesquisadores raramente discutem as visões de linguagem e de
sentido, e conseqüentemente de tradução, subjacentes aos caminhos escolhidos, e
muitas vezes parecem nem sequer estar conscientes delas. De forma geral,
observamos a reprodução de uma tendência representacionista do significado,
predominante na história ocidental (Martins, 1999). Nesse contexto, a linguagem
representa o mundo real e, portanto, deveria haver correspondência entre as
línguas para cumprir essa tarefa de representar o mundo. Alguns autores da área
de TA parecem estar mais atentos a essas questões, como Maia&Barreiro (no
prelo) e Martins&Nunes (2005):
Do exposto acima percebe-se o quanto o campo da tradução automática não pode
ser delimitado de forma única, constituindo antes uma dispersão, que varia
conforme todo um conjunto de pressupostos sobre o que seja a linguagem humana,
sua natureza, sua estrutura, sobre o papel do conhecimento lingüístico e do
conhecimento de mundo na interpretação dos enunciados, e - talvez principalmente
- sobre o que seja tradução. (Martins&Nunes, 2005:10).
5.2.
Perspectivas para o futuro
Uma questão que se coloca sobre o futuro da tradução automática é o papel
que ela assumirá na sociedade. Com a popularização da internet, surge um imenso
mercado de usuários interessados em entender o conteúdo de websites e interagir
com outras pessoas, nos mais variados idiomas. Esse sem dúvida deve ser um
grande impulso para o desenvolvimento da TA.
Além de atender ao grande público, interessado em recursos de linguagem
geral, a TA deve ganhar espaço no mercado de tradução profissional. Nesse
contexto, ela não deve ser vista como ameaça ao tradutor e sim como uma
ferramenta de trabalho. Ao contrário de “tomar” o lugar do tradutor, a TA poderá
significar um aumento de produtividade, além de poder criar novas oportunidades
de trabalho para profissionais de letras, por exemplo, na pré-edição (preparação do
texto, redação com linguagem controlada), no treinamento e na utilização do
PUC-Rio - Certificação Digital Nº 0410515/CA
117
tradutor automático, no controle de qualidade, na criação e a manutenção de
dicionários e regras e na pós-edição.
Podemos supor que os tradutores automáticos seguirão o mesmo caminho
das ferramentas de memória de tradução, que inicialmente foram impostas aos
tradutores que atuavam no mercado de localização, mas com o tempo foram
reconhecidas pelos próprios profissionais como uma forte aliada para aumentar a
produtividade e ajudar a garantir a padronização estilística e terminológica. Os
investimentos das empresas em TA promoverão o aprimoramento dessa que,
como mostram as pesquisas de Allen (2004) e Guerra (2004), poderá se tornar
uma nova ferramenta de apoio aos tradutores.
PUC-Rio - Certificação Digital Nº 0410515/CA
6
Referências bibliográficas
ALLEN, Jeff. (2003). Post-editing. In: Computers and Translation: A Translators
Guide. Harold Somers (ed.). Amsterdam: John Benjamins. Disponível em
http://www.geocities.com/mtpostediting/ (acesso em 20 de fevereiro de 2006)
–––––––––– (2004). Case study: implementing MT for the translation of pre-sales
marketing and post-sales software deployment documentation at Mycom
International. In: Machine Translation: From Real Users to Research: 6th
Conference of the Association for Machine Translation in the Americas AMTA,
Washington. Disponível em http://www.informatik.uni-
trier.de/~ley/db/conf/amta/amta2004.html#Allen04 (acesso em 20 de fevereiro de
2006)
ARNOLD, Doug; BALKAN, Lorna.; HUMPHREYS, R. Lee.; MEIJER, S. &
SADLER, Louisa. (1993). Machine Translation: an Introductory Guide. Londres:
Blackwells-NCC.
BAKER, Mona. (1992). In Other Words – a courserbook on translation. London:
Routledge, apud Dayrell (1999).
BRUCKNER, Christine; Plitt, Mirko. (2001) Evaluating the Operational Benefit
of Using Machine Translation Output as Translation Memory Input. In:
Proceedings of the Machine Translation Summit VIII, Santiago de Compostela.
Disponível em http://www.issco.unige.ch/projects/isle/papersMTS/bruckner.pdf
(acesso em 20 de fevereiro de 2006)
CHOMSKY, Noam. (1981). Lectures on Government and Binding. Dordrecht,
Foris, apud Specia, Lucia & Rino, Lucia (2002)
DAYRELL, Carmen. (1999). Sistemas de Tradução Automática: Avaliação e
Propostas de Melhoria. Dissertação de Mestrado, Faculdade de Letras da UFMG,
Belo Horizonte.
DI FELIPPO, Ariani. (2004) Representação lingüístico-computacional dos
adjetivos valenciais em português. Dissertação de Mestrado, Faculdade de
Ciências e Letras, Universidade Estadual Paulista, UNESP, Araraquara.
Dicionário Aurélio Eletrônico Século XXI, versão 3. (1999). Rio de Janeiro:
Lexikon Informática.
PUC-Rio - Certificação Digital Nº 0410515/CA
119
Dicionário Eletrônico Houaiss da Língua Portuguesa, versão 1. (2001). Rio de
Janeiro: Ed. Objetiva.
DILLINGER, Mike & LOMMEL, Arle. (2004) LISA (Localization Industry
Standards Association) Best Practice Guide – Implementing Machine Translation.
Disponível em http://www.lisa.org/products/bestPractice/ (acesso em 20 de
fevereiro de 2006)
ESSELINK, Bert. (2000). A Practical Guide to Localization. Amsterdã/Filadélfia:
John Benjamins.
FEMTI - Framework for the Evaluation of Machine Translation in ISLE.
Disponível em http://www.issco.unige.ch/projects/isle/femti/ (acesso em 20 de
fevereiro de 2006)
FROTA, Paula & BRITTO, Paulo. (inédito). Introdução à tradução. Apostila do
curso de tradução, Departamento de Letras, PUC-Rio. Arquivo de texto.
Glossário da Agência Nacional de Telecomunicações (Anatel) – Disponível em
http://www.anatel.gov.br/AJUDA/GLOSSARIO/resultadoglossario.asp. (acesso
em 8 de fevereiro de 2006)
Glossário online da Agência Nacional de Telecomunicações (Anatel)’:
http://www.anatel.gov.br/ajuda/glossario/default.asp (acesso em 11 de fevereiro
de 2006)
GUERRA, Lorena. (2004). Machine Translation: An Imperfect but Evolving
Technology. In: Perspectives on Machine Translation. MultiLingual Computing &
Technology, Supplement 62. Disponível em
https://216.18.156.115/multilingual/downloads/machineTranslationSupScreen.pdf
(acesso em 20 de fevereiro de 2006)
HODÁSZ, Gábor; GRÖBLER, Tamás & KIS, Balázs. (2004) Translation
Memory as a Robust Example-based Translation System. In: Proceedings of the
9th European Association for Machine Translation (EAMT) Workshop, Malta.
Disponível em http://www.eamt.org/archive/malta/EAMT-2004-Hodasz.pdf
(acesso em 20 de fevereiro de 2006)
HOVY, Eduard; KING, Margaret & POPESCU-BELIS, Andrei. (2002).
Principles of Context-based Machine Translation Evaluation. Disponível em
http://www.isi.edu/natural-language/people/hovy/papers/03MT-FEMTI-MT-
eval.pdf
HUTCHINS, W. John & Sommers, Harold. (1992). An Introduction to Machine
Translation. In An Introduction to Machine Translation. Academic Press, London.
PUC-Rio - Certificação Digital Nº 0410515/CA
120
IDE, Nancy & VÉRONIS, Jean. (1998). Word Sense Disambiguation: The State
of the Art. In: Computational Linguistics, Special Issue on Word Sense
Disambiguation, v. 24, n. 2. Disponível em http://www.up.univ-
mrs.fr/~veronis/pdf/1998wsd.pdf (acesso em 20 de fevereiro de 2006)
ISO/IEC: 1991, ISO/IEC 9126:1991 (E) Information Technology – Software
Product Evaluation – Quality Characteristics and Guidelines for Their Use,
Geneva: International Organization for Standardization & International
Electrotechnical Commission, apud Hovy, Eduard; King, Margaret & Popescu-
Belis, Andrei. (2002).
KILGARRIFF, A. (1997). “I don’t believe in word senses”. IN: Computers and
the Humanities 31. Disponível no endereço eletrônico:
http://www.humaniora.sdu.dk/ifki/ontoquery/readings/lenci/Kilgariff-97.pdf
KOCH, Ingedore. (1993). Argumentação e linguagem. 3. ed. São Paulo: Cortez.
MAIA, Belinda & SARMENTO, Luís. (2005). The Corpógrafo - an Experiment
in Designing a Research and Study Environment for Comparable Corpora
Compilation and Terminology Extraction. In: Proceedings of
eCoLoRe/MeLLANGE Workshop, Resources and Tools for e-Learning in
Translation and Localisation. Disponível em
http://poloclup.linguateca.pt/docs/ecolore/ecolore-workshop-article.pdf (acesso
em 20 de março de 2006)
–––––––––– & BARREIRO, Anabela. (no prelo). Uma experiência de recolha de
exemplos classificados de tradução automática de inglês para português.
MARTINS, Helena. (1999) Metáfora e polissemia no estudo das línguas do
mundo: uma aproximação não representacionista. Tese de doutorado, UFRJ.
MARTINS, Ronaldo. PELLIZONI, Jorge; HASEGAWA, Ricardo & NUNES,
Maria das Graças. (2004). Da tradução automática para a língua portuguesa:
apontamentos de três experiências baseadas em interlíngua. In: PaLavra, v. 12,
volume temático “Processamento Automático do Português” p. 37-55
––––––––––, Ronaldo. & NUNES, Maria das Graças. (2005). Notas Didáticas do
Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo,
no. 68. NILC-TR-05-12. São Carlos, 26p. Disponível em
http://www.nilc.icmc.usp.br/nilc/download/NotasDidaticasICMC_68.pdf (acesso
em 20 de fevereiro de 2006)
Microsoft Glossary:
http://support.microsoft.com/default.aspx?scid=/support/glossary/default.asp
MUSALE, Shailendra. (2001). LISA (Localization Industry Standards
Association) Localizing for Mobile Devices: A Primer. Disponível em:
http://www.lisa.org/products/wireless/ (acesso em 20 de fevereiro de 2006)
PUC-Rio - Certificação Digital Nº 0410515/CA
121
OLIVEIRA Jr., Osvaldo; MARTINS, Mônica; MARCHI, Ana & MARTINS,
Ronaldo. (2000). A critical analysis of the performance of English-Portuguese-
English MT systems. In: Anais do V Encontro para o Processamento
Computacional da Língua Portuguesa Escrita e Falada (PROPOR 2000), p. 85-
92. Atibaia, SP. Disponível em
http://www.nilc.icmc.usp.br/nilc/download/criticalanalysis.zip
PAPINENI, Kishore; ROUKOS, Salim; WARD, Todd & ZHUW, Wei-jing.
(2001). BLEU: a Method for Automatic Evaluation of Machine Translation.
Research Report, Computer Science IBM Research Division, T.J.Watson
Research Center, RC22176 (W0109-022)
http://domino.watson.ibm.com/library/CyberDig.nsf/Home (keyword=RC22176)
apud Sarmento, LUÍS; Barreiro, Anabela; Maia, Belinda & Santos, Diana. (no
prelo).
PRIA, Albano. (2005). Uma proposta de representação lingüístico-computacional
do comportamento sintático e semântico de adjetivos no sintagma nominal do
inglês e do português. Dissertação de Mestrado, Faculdade de Ciências e Letras,
Universidade Estadual Paulista, UNESP, Araraquara.
PYM, Anthony. (2003a). Translational ethics and electronic technologies.
Disponível em http://www.fut.es/~apym/on-line/lisbon_ethics.pdf (acesso em 20
de fevereiro de 2006)
–––––––––– (2003b). (mediador) Localization and translator training on-line
conference. Disponível em (http://groups.yahoo.com/group/itit/) (acesso em 20 de
fevereiro de 2006)
–––––––––– (2003c). What localization models can learn from translation theory.
Disponível em
http://www.lisa.org/archive_domain/newsletters/2003/2.4/pym.html
(acesso em
20 de fevereiro de 2006)
–––––––––– (2004). Localization from the Perspective of Translation Studies:
Overlaps in the Digital Divide? Disponível em
http://www.elda.org/en/proj/scalla/SCALLA2004/Pymv2.pdf
(acesso em 20 de
fevereiro de 2006)
Random House Webster’s Unabridged Electronic Dicionary version 2 (1996).
Novell Linguistic Development.
RIBEIRO, Gabriela & DIAS, Maria Carmelita. (2005). Two corpus-based studies
about the translation of adjectives in English and Brazilian Portuguese. In:
Proceedings from the Corpus Linguistics Conference Series, Vol. 1, no. 1. A ser
disponibilizado em http://www.corpus.bham.ac.uk/PCLC/
RIECHE, Adriana. (2004). Memória de tradução: auxílio ou empecilho?
Dissertação de Mestrado, Departamento de Letras, PUC-Rio, Rio de Janeiro.
PUC-Rio - Certificação Digital Nº 0410515/CA
122
SARMENTO, Luís. (no prelo). Ferramentas para experimentação, recolha e
avaliação de exemplos de tradução automática.
–––––––––– BARREIRO, Anabela; MAIA, Belinda & SANTOS, Diana. (no
prelo). Avaliação de tradução automática: alguns conceitos e reflexões.
SCOTT, Donia; POWER, Richard & BOUAYAD-AGHA, Nadjet (2003)
Document structure. In: Computational Linguistics, v. 29, n. 2. Disponível no
endereço eletrônico: http://www.itri.brighton.ac.uk/~Richard.Power/power03.pdf
(acesso em 20 de fevereiro de 2006)
SHADBOLT, David. (2003). An Overview of Localization Tools In:
Localization. Multilingual Computing & Technology, Supplement 57. Disponível
em https://216.18.156.115/multilingual/downloads/screenSupp57.pdf (acesso em
20 de fevereiro de 2006)
SPECIA, Lucia & NUNES, Maria das Graças. (2004). Desambiguação lexical
automática de sentido: um panorama. Série de Relatórios do Núcleo
Interinstitucional de Lingüística Computacional NILC - ICMC-USP. Disponível
em http://www.dcs.shef.ac.uk/~lucia/ (acesso em 20 de fevereiro de 2006)
–––––––––– & RINO, Lucia. (2002). Introdução aos métodos e paradigmas de
tradução automática. Série de Relatórios Técnicos do NILC, NILC-TR-02-04. São
Carlos, 23p. Disponível em
http://www.nilc.icmc.usp.br/nilc/pessoas/specia/publications/TR0204-
SpeciaRino.pdf (acesso em 20 de fevereiro de 2006)
–––––––––– NUNES, Maria das Graças; RIBEIRO, Gabriela & STEVENSON,
Mark. (2006). Multilingual versus Monolingual WSD. In: Workshop Making
Sense of Sense: Bringing Psycholinguistics and Computational Linguistics
Together - European Chapter of the Association for Computational Linguistics
(EACL). Disponível em
http://www.dcs.shef.ac.uk/~lucia/publications/Speciaetal_MakingSenseOfSense0
6.pdf (acesso em 20 de março de 2006)
WASSMER, Thomas. (2004). Tools for localizing multimedia applications. In:
Localization Reader 2004-2005. Disponível em
http://www.localisation.ie/resources/reader/2004/Localization%20Reader%2004-
05.pdf (acesso em 20 de fevereiro de 2006)
PUC-Rio - Certificação Digital Nº 0410515/CA
Anexos
PUC-Rio - Certificação Digital Nº 0410515/CA
124
ORIGINAL TRADUÇÃO TRADUÇÃO DO FABRICANTE TRADUÇÃO SUGERIDA
List of menu functions ¦ List de funções de cardápio Não disponível Lista de funções do menu
10.Enhancement settings1 10.Enhancement settings1 Configurações de acessório
Info numbers1 Numbers1 de Info Números para informação
Info topics saved on SIM card1 Tópicos de Info economizaram em
card1 de SIM
Não disponível Informações salvas no cartão SIM
Read1 Read1 Não disponível Ler
Service numbers1 Conserte numbers1 Nos. de serviço
SIM services1 SERVICES1 DE SIM Não disponível Serviços do cartão SIM
10.Caller groups 10.Caller grupos Grupos chamada
Access codes Códigos de acesso Códigos de acesso
Activation key list Ativação lista fundamental Lista teclas ativ.
Add folder Some pasta de papéis Adicionar pasta
Add new contact Some contato novo Adicionar contato
Alarm clock Despertador Despertador
Alert for Alerte para Alerta para
All Tudo Todas
All calls' duration A duração de todas as chamadas Não disponível Duração de todas as chamadas
All received data Tudo receberam dados Não disponível Todos os dados recebidos
All sent data Tudo enviaram dados Não disponível Todos os dados enviados
Anykey answer Anykey respondem Atender com qualquer tecla
Applications Aplicações Aplicativos
Automatic keyguard Keyguard automático Não disponível Proteção de teclado automática
Automatic redial Redial automático Rediscagem automática
Automatic volume control Controle de volume automático Controle automát. de volume
Auto-update of date & time Auto-atualize de data & tempo Atualiz. Automática de data e hora
Bookmarks Marcadores de páginas Marcadores
Calculator Calculadora Calculadora
PUC-Rio - Certificação Digital Nº 0410515/CA
125
ORIGINAL TRADUÇÃO TRADUÇÃO DO FABRICANTE TRADUÇÃO SUGERIDA
Calendar Calendário Calendário
Call barring service Chame exceto serviço Restrições de chamada
Call divert Chame desvie Desvio de chamadas
Call duration Chame duração Não disponível Duração da chamada
Call register Chame registro Registro cham.
Call settings Chame colocações Configurações de chamada
Call waiting Espera de chamada Espera de chamadas
Cell info display Exibição de info de cela Exibição de inform.da célula
Clear counters Contadores claros Não disponível Zerar contadores
Clear the cache Clareie o esconderijo Limpar cache
Clear timers Cronômetros claros Não disponível Zerar tempo
Clock Relógio Relógio
Closed user group Grupo de usuário fechado Grupo fechado de usuários
Collection Coleção Coleção
Colour schemes Colour planeja Esquemas de cores
Connectivity Connectivity Conectividade
Contacts Contatos Contatos
Contacts view Contatos vêem Visualização de contatos
Copy Cópia Copiar
Countdown timer Cronômetro de Countdown Contador regressivo
Create message Crie mensagem Criar mensagem
Create SMS e-mail Crie e-mail de SMS Crie e-mail SMS
Data received in last session Dados receberam em última sessão Não disponível Dados recebidos na última sessão
Data sent in last session Dados enviaram em última sessão Não disponível Dados enviados na última sessão
Date Data Data
Delete Apague Excluir
Delete folder Apague pasta de papéis Excluir pasta
Delete messages Apague mensagens Excluir mensagens
Delete recent call lists Apague recentes listas de chamada Excluir listas chamadas recentes
Dialled Dialled Discadas
PUC-Rio - Certificação Digital Nº 0410515/CA
126
ORIGINAL TRADUÇÃO TRADUÇÃO DO FABRICANTE TRADUÇÃO SUGERIDA
Dialled calls' duration A duração de chamadas de Dialled Não disponível Duração das chamadas discadas
Dialled numbers Dialled numera Números discados
Display brightness Exiba brilho Brilho da tela
Display settings Exiba colocações Configurações de tela
Download links Carregue ligações Não disponível Links para download
Downloads Carrega Downloads
Duration of all sessions Duração de todas as sessões Não disponível Duração de todas as sessões
Duration of last session Duração de última sessão Não disponível Duração da última sessão
Extras Suplementares Extras
Fixed dialling Dialling fixo Discagem fixa
Gallery Galeria Galeria
Games Jogos Jogos
Go to Ir para
Go to address Vá se dirigir Ir para endereço
GPRS connection Conexão de GPRS Conexão GPRS
GPRS connection timer GPRS conexão cronômetro Contador da conexão GPRS
GPRS data counter GPRS dados contador Contador de dados GPRS
Help text activation Ajude ativação de texto Ativação do texto de ajuda
Home Casa Homepage
Inbox Inbox Caixa de entrada
Incoming call alert Alerta de chamada entrante Alerta de chamada recebida
Info messages Mensagens de Info Não disponível Mensagens de informação
Info service Info consertam Não disponível Serviços de informação
Keypad tones Tons de teclado complementar Sons do teclado
Language Idioma Não disponível Idioma
Last call duration Por último chame duração Não disponível Duração da última chamada
Light sequences Sucessões claras Seqüências de luz
Listen to voice messages Escute para expressar mensagens Ouvir mensagens de voz
Memory in use Memória em uso Memória em uso
PUC-Rio - Certificação Digital Nº 0410515/CA
127
ORIGINAL TRADUÇÃO TRADUÇÃO DO FABRICANTE TRADUÇÃO SUGERIDA
Memory status Estado de memória Status da memória
Menu view Visão de cardápio Visualização de menu
Message alert tone Mensagem tom alerta Sinal de alerta de mensagem
Message settings Colocações de mensagem Config. Mensagem
Messages Mensagens Mensagens
Missed Perdido Não atendidas
Missed calls Chamadas perdidas Chamadas não atendidas
Multimedia msgs. Msgs de multimídias. Mens. multimídia
My folders Minhas pastas de papéis Minhas pastas
My numbers Meus números Meus números
Operator logo Logotipo de operador Logo da operadora
Operator selection Seleção de operador Escolha de operadora
Organise 'Go to' options Organize 'Go a opções de ' Organizar opções de 'Ir para'
Organiser Organizador Organizador
Other settings Outras colocações Não disponível Outras configurações
Outbox Exceda em boxe Caixa de saída
Personal shortcuts Atalhos pessoais Atalhos pessoais
Phone language Telefônico idioma Idioma do telefone
Phone settings Telefônicas colocações Configurações do telefone
PIN code request Pedido de código de ALFINETE Solicitação de código PIN
Profiles Perfis Perfis
Received Recebido Recebidas
Received calls Chamadas recebidas Chamadas recebidas
Received calls' duration A duração de chamadas recebidas Não disponível Duração das chamadas recebidas
Rename folder Renomeie pasta de papéis Renomear pasta
Restore factory settings Restabeleça colocações de fábrica Restaurar configurações originais
Right selection key Chave de seleção certa tecla de seleção Direita
Ringing tone Tom tocando Toque musical
Ringing volume Volume tocando Volume do toque musical
Saved items Artigos economizados Itens salvos
Saved text msgs. Msgs de texto economizado. Não disponível Mens. de texto salvas
PUC-Rio - Certificação Digital Nº 0410515/CA
128
ORIGINAL TRADUÇÃO TRADUÇÃO DO FABRICANTE TRADUÇÃO SUGERIDA
Screen saver timeout Esconda intervalo de poupador Tempo limite do descanso de tela
Search Procura Localizar
Security level Nível de segurança Nível de segurança
Security settings Colocações de segurança Configurações de segurança
Select 'Go to' options 'Go seleto para opções de ' Selecionar opções de 'Ir para'
Send my caller ID Envie para meu visitante ID Enviar minha ID de chamada
Sent items Artigos enviados Itens enviados
Service commands Comandos de serviço Comandos de serviço
Service inbox Conserte inbox Caixa de serviços
Services Serviços Serviços
Settings Colocações Configurações
Speed dialling Faça andar depressa dialling Discagem rápida
Speed dials Dial de velocidade Discagem rápida
Start-up tone Tom iniciante Sinal inicial
Stopwatch Cronômetro Cronômetro
Summary after call Resumo depois de chamada Não disponível
Templates Modelos Modelos
Text messages Mensagens de texto Mensagens de texto
Time and date settings Tempo e colocações de data Configurações de data e hora
Tone settings Harmonize colocações Configurações de toques
Topics Tópicos Não disponível Tópicos
Vibrating alert Vibrando alerta Alerta vibratório
View folders Veja pastas de papéis Ver pastas
Voice mailbox number Expresse número de caixa postal Número do correio de voz
Voice messages Expresse mensagens Mensagens de voz
Wallpaper Papel de parede Papel de parede
Warning tones Tons advertindo Sinais de aviso
Welcome note Nota bem-vinda Nota de abertura
PUC-Rio - Certificação Digital Nº 0410515/CA
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo