http://www2.uol.com.br/sciam/ Réplicas de nossa complexidade
Janeiro
Cada vez mais presente, a inteligência artificial simula o pensamento humano e se alastra por nosso cotidiano.
Por Paulo Seleghim Jr.
"Bom dia, sr. Silva. Em que posso ajudá-lo?", diz o holograma.
"Estou procurando um presente de aniversário para minha filha", responde o cliente, um pouco hesitante por estar falando com uma projeção.
"O senhor esteve aqui na semana passada procurando por um presente para sua esposa, não foi? Ela ficou satisfeita com o relógio?"
"Sim, ela gostou muito. Aliás, como você soube que ela gostaria de um relógio de pulso com localização por GPS?"
"Porque há pouco tempo ela comprou um guia sobre trilhas na serra da Mantiqueira. Qual a idade de sua filha?"
"Ela se chama Aléxia, vai fazer 11 anos e gosta muito de desenhar", diz um sr. Silva agora mais nítido.
"Talvez ela goste de um estojo de pintura, ou talvez prefira um par de botas de equitação..."
Este diálogo ficcional pode não estar muito longe de se tornar realidade. Pelo menos as tecnologias necessárias estão em franco desenvolvimento, integrando áreas de pesquisa conhecidas como Inteligência Artificial (IA).
Hoje, as aplicações da IA vão muito além dos objetivos iniciais que, por volta da década de 1950, visavam reproduzir o pensamento humano. Foi quando Alan M. Turing, no livro Computer machinery and intelligence, propôs um teste para identificar quando o comportamento de uma máquina poderia ser considerado inteligente. Um entrevistador humano manteria conversação simultânea com um equipamento e com outra pessoa, ambos escondidos atrás de um biombo. Ele faria uma série de perguntas ao acaso, envolvendo aspectos genéricos (Como se faz um cachorro quente?) ou de natureza cultural (Quem foi o inventor da imprensa?). Se após algum tempo o entrevistador não pudesse distinguir quem era quem, ou o que, entre seus entrevistados, a máquina poderia ser classificada como artificialmente inteligente e com inteligência semelhante à humana. Aplicar esse tipo de teste era exatamente o trabalho do detetive Rick Deckard que, na história do filme Blade Runner, entrevistava suspeitos para identificar e "terminar" humanóides artificiais ou "replicantes".
Além da reprodução da inteligência humana, técnicas de IA têm sido incorporadas a aplicações tão distintas quanto o reconhecimento automático dos caracteres da placa de um carro ou a lógica de controle de uma máquina de lavar roupas. A utilização da IA permite obter não somente ganhos significativos de performance, através da "inteligentificação" de máquinas e sistemas, mas também possibilita o desenvolvimento de aplicações inovadoras, capazes de expandir de forma extraordinária nossos sentidos e habilidades intelectuais. É o caso, por exemplo, dos programas de busca na internet ou dos corretores ortográficos e gramaticais automáticos. Em outras palavras, o desenvolvimento e a aplicação de algoritmos capazes de reproduzir habilidades inteligentes, e não necessariamente da inteligência como um todo, provavelmente resultarão em avanços tão expressivos quanto foram o uso do vapor no início da Revolução Industrial ou a introdução do computador a partir da Segunda Guerra Mundial.
Mas quais seriam essas "habilidades inteligentes"? O diálogo do início do artigo pode fornecer algumas pistas se levarmos adiante a ficção. Num primeiro momento, o vendedor virtual (holograma) identifica o sr. Silva comparando seu rosto com fotos de um cadastro, constituído automaticamente a partir de imagens do sistema interno de câmeras e da base de dados sobre transações financeiras. (Pagamentos com cartão de crédito, por exemplo.)
O holograma detecta também o desconforto do cliente interpretando expressões de sua face e entonação da voz, decidindo então descontraí-lo. Todo bom vendedor (humano ou não) deve ter esses tipos de habilidade: boa memória para associar rostos e nomes, além de sensibilidade para descontrair e se comunicar bem com o cliente. A empatia é criada através da personalização do diálogo, por exemplo, com a introdução de elementos específicos ao sr. Silva, no caso o registro de suas últimas compras. Por fim, o holograma sugere um estojo de pintura com a dica "... e gosta muito de desenhar". E tem informação de que a menina Aléxia desenvolve interesses mais característicos da adolescência. Faz então uma busca na internet, descobrindo que ela está matriculada em um curso de equitação.
O interessante é que, apesar de nossa pequena ficção se passar em um futuro indeterminado, as habilidades demonstradas pelo holograma, e que o caracterizariam como socialmente inteligente segundo o teste de Turing, são realidade já hoje. Da mesma maneira, o acesso às informações que permitiram formular sugestões específicas dentre muitas possíveis (relógio com localizador GPS e botas de equitação) podem ser facilmente obtidas através da internet.
Vejamos, por exemplo, a identificação do sr. Silva a partir de sua imagem. As dificuldades associadas a esse problema resultam das variações possíveis de ocorrer com o rosto de uma pessoa, ocasionadas por fatores externos como iluminação ou ângulos de pose, ou a diferentes expressões faciais, maquiagem, barba, estado de saúde etc. Nosso cérebro é capaz de fazer essas distinções porque passou por um longo processo de treinamento: aprendemos a quantificar distâncias relativas entre olhos, boca e nariz e as associamos a características morfológicas específicas como lábios grossos, rugas ou olheiras. Aprendemos desde criança a modificar o próprio rosto para exprimir emoções, e assim as reconhecemos em outros. Reconhecer o rosto de alguém significa reconhecer seu conjunto de medidas e características morfológicas independentemente de a pessoa estar sorrindo ou usando bigode como o de D. Pedro I. Esses procedimentos, tão naturais e automáticos para nós, podem ser reproduzidos de forma eficaz por uma máquina?
A resposta é sim, e a ferramenta da IA que permite realizar essa tarefa são os chamados modelos coneccionistas ou redes neurais (RN). Uma RN pode ser vista como um modelo matemático simplificado do funcionamento do cérebro humano. Este consiste de um número muito grande de unidades elementares de processamento, ou neurônios, que recebem e enviam estímulos elétricos uns aos outros, formando uma rede altamente interconectada. No processamento, são compostos os estímulos recebidos conforme a intensidade de cada ligação, produzindo um único estímulo de saída. É o arranjo das interconexões entre os neurônios e as respectivas intensidades que define as principais propriedades e o funcionamento de uma RN.
Essas características podem ser reproduzidas matematicamente a partir de um modelo do processamento neural e das conexões entre eles. Assim, os estímulos elétricos são representados por números e sua composição é feita através de uma soma ponderada, na qual as intensidades das conexões constituem os pesos. O resultado da composição dos estímulos é então processado em uma função de corte ou de ativação, conforme indicado na figura de um neurônio com três entradas e uma saída .
A forma como diversos neurônios são interconectados em uma rede define sua arquitetura e, por conseguinte, seu funcionamento. Um tipo de rede bastante comum é a direta ou feedforward, cujos neurônios são agrupados por camadas não recursivas, isto é, as saídas de uma determinada camada só podem ser conectadas às entradas da camada seguinte. Dessa maneira, a informação flui uniformemente no sentido da entrada para a saída ou, considerando a rede como um todo, dos dados do problema para sua resposta. Quando as conexões possuem recursividade, pode haver neurônios cujas saídas estão conectadas a entradas de neurônios de camadas precedentes.
Dentre as principais propriedades matemáticas de uma RN talvez a mais interessante seja sua capacidade de reproduzir padrões de entrada e saída. Mais especificamente, uma vez definida a arquitetura da RN é possível ajustar os pesos das conexões de forma que, dado um padrão de entrada, a saída correspondente se aproxime de valores especificados. Esse ajuste pode ser feito com o auxílio de heurísticas apropriadas de treinamento, baseadas em conjuntos de pares de entrada/saída especificados. O ajuste é feito por ciclos em que a cada entrada apresentada à rede os pesos são ligeiramente modificados para fazer os valores da saída obtida se aproximar dos valores da saída especificada. Dentre várias, as heurísticas de treinamento mais comuns são retropropagação, associativa, Widrow-Hoff e hebbiana.
Assim, um neurônio pode ser treinado para avaliar o preço de um carro novo em função da potência e da cilindrada de seu motor, além do número de opcionais instalados. A base de dados de treinamento nesse caso deve ser constituída a partir de levantamento nas concessionárias, na internet e assim por diante. Uma comparação entre o preço praticado e o estimado pode ser feita apresentando-se as mesmas entradas ao neurônio, após ajuste de suas conexões. Essa diferença é menor do que R$ 3 mil, bastante razoável dada a extrema simplicidade do modelo. Uma RN mais complexa, com mais neurônios e considerando informações adicionais (mais entradas), com certeza reduziria em muito a diferença. Seja como for, essa RN pode servir tanto um comprador que queira saber se o preço de um veículo está dentro da expectativa quanto um fabricante que planeje lançar um novo modelo e deseje estimar metas de preço.
Quanto ao problema de identificação do rosto do sr. Silva, uma possível estratégia de solução consiste em parametrizar sua imagem e apresentar esses valores a uma RN previamente treinada para produzir como saída o número de seu cadastro e também a porcentagem de certeza quanto à identificação. Naturalmente, quanto maior e mais detalhada for essa parametrização, melhor será o índice de acerto. Os parâmetros poderiam incluir, por exemplo, distâncias relativas, tamanho e forma dos olhos, sobrancelhas, boca e nariz, além da cor dos cabelos e forma do rosto. Os dados de treinamento, isto é, de pares de entrada e saída especificados, devem ser construídos a partir de conjuntos desses parâmetros e seus respectivos números de cadastro para que a rede possa aprender a reproduzi-los após o ajuste de seus pesos.
Esse tipo de RN, apesar de muito rudimentar em relação ao cérebro humano, pode realizar tarefas tão complexas e diversificadas quanto identificar imagens, reconhecer sabores (língua eletrônica), decidir sobre aplicações financeiras ou realizar diagnósticos clínicos. A condição para tanto é a existência de um conjunto de dados de treinamento através dos quais os pesos da RN possam ser adequadamente ajustados (treinamento supervisionado).
Nessa linha, uma aplicação bastante interessante desenvolvida no Núcleo de Engenharia Térmica e Fluidos da Universidade de São Paulo em São Carlos é um sistema de detecção de vazamento para oleodutos industriais. A RN foi treinada para tomar como entrada sinais de pressão fornecidos por medidores instalados ao longo da linha, produzindo como saída um indicativo do regime de escoamento (estratificado, intermitente, anular ou disperso) e um sinal de alarme de vazamentos.
É possível também construir redes capazes de aprender na ausência de dados de treinamento, de forma não supervisionada. Essa RN, conhecida como mapas auto-organizáveis, possui propriedades extremamente úteis quanto à capacidade de inferir padrões característicos e de visualizar dados abstratos. Uma rede auto-organizável permite desenvolver aplicações que envolvam, por exemplo, inferir quantas etnias uma determinada espécie possui e qual o fenótipo característico de cada uma.
Ou determinar a melhor forma de operar semáforos para que a circulação de veículos seja otimizada. As possibilidades são muitas e extremamente interessantes. Mas, voltemos ao diálogo inicial para analisar outra habilidade inteligente.
Assim como o problema de identificação de imagem nos levou às RNs, a análise das expressões faciais e da entonação da voz nos conduz aos chamados métodos de representação da informação. Concentremo-nos no problema da fala e em identificar uma maneira de reproduzir nossa habilidade de extrair informações contidas na forma como pronunciamos as palavras. Sem entrar em extensas considerações neurolingüísticas, alterações mais ou menos sutis em nossa fala podem refletir emoções não necessariamente expressas naquilo que está sendo dito. Nosso cérebro aprende desde cedo a interpretar essas alterações através de estruturas neurais semelhantes às descritas, porém antecedidas por uma etapa de reconhecimento. De forma mais específica, antes de serem interpretados os sons devem ser reconhecidos e, para isso, é necessária uma estrutura de representação fonética. Em nosso cérebro, essa representação é feita em regiões específicas através da impressão da atividade neuronal deixada pela experiência repetida com os fonemas e suas variações.
Essa estrutura de representação dos fonemas, desenvolvida após milhões de anos de evolução, possibilitou o surgimento de uma linguagem falada suficientemente abrangente para a comunicação tanto de fatos simples ("Choveu hoje cedo.") quanto de idéias abstratas ("O homem é o lobo do homem."). No entanto, porque própria a cada indivíduo, a estrutura interna de representação não pode embasar a criação de um conjunto de símbolos universais de uma linguagem. Talvez o passo evolutivo mais importante da história humana tenha sido a superação dessa barreira com o desenvolvimento da capacidade de grafar a linguagem falada.
Inicialmente usamos pictogramas que, após sucessivos processos de estilização, evoluíram para alfabetos genéricos. A partir do terceiro milênio a.C., segundo evidências arqueológicas encontradas no Egito e Oriente Médio, aprendemos a grafar sons musicais.
A notação musical moderna teve origem por volta do século VIII com os símbolos e regras utilizadas para representar notas musicais do canto gregoriano. Baseada em pontos e traços grafados sobre pautas de quatro ou cinco linhas, indicava a altura e a duração das notas a serem cantadas, bem como sua seqüência temporal correta. De forma simplificada, o momento em que uma nota deve ser tocada ou cantada é indicado por sua posição horizontal na pauta. Já a altura (freqüência) é mostrada pelo posicionamento vertical: quanto mais aguda for a nota, mais para cima é grafada na pauta.
Muito mais do que uma forma de representar os sons musicais, essa notação pode ser estendida para qualquer tipo de sinal, seja ele o ruído de uma máquina, a temperatura ambiente ou a flutuação da taxa de câmbio, todos representados de forma genérica por funções matemáticas.
De fato isso foi feito por físicos e matemáticos como J. Fourier, D. Gabor, J. Ville e vários outros mais recentemente, cujo trabalho resultou no arcabouço teórico da informática. (Aqui, o termo é usado no sentido de "tratamento automático da informação com auxílio de métodos numérico-matemáticos".) Não é exagero dizer que grande parte do extraordinário desenvolvimento de áreas como análise de sinais, imagens, transmissão de dados, sensoriamento remoto, entre outros, sobretudo no contexto das telecomunicações, deve-se ao trabalho desses pesquisadores.
Ao estudar a propagação do calor, Joseph Fourier mostrou em 1807 como representar funções periódicas através de uma soma infinita de harmônicos de freqüências múltiplas. Considerando que os sons musicais podem ser representados por funções periódicas, a afirmativa implica que mesmo os trechos de silêncio são na verdade constituídos por harmônicos de amplitudes e fases tais que, quando superpostos, resultam em trechos nulos. Apesar de correta em termos matemáticos, a afirmação é obviamente falsa do ponto de vista físico: um trecho de silêncio ocorre na ausência de som e não devido à anulação mútua dos harmônicos. Após P. Du Bois-Reymond ter apresentado, em 1873, uma função periódica contínua cuja série de Fourier divergia num dado ponto, a matemática avançou por três vias nesta área: 1) generalização do conceito de função e inclusão da teoria de Fourier em uma delas, 2) generalização das métricas de convergência e 3) busca por novas formas de decomposição dos sinais para os quais o fenômeno descoberto por Du Bois-Reymond não poderia ocorrer.
A terceira via foi inicialmente trilhada por Haar, Gabor e Ville e nos conduz à chamada decomposição tempo-freqüência que, assim como uma partitura musical, indica a evolução temporal do conteúdo em freqüência do sinal analisado. A idéia subjacente é que um sinal qualquer pode ser representado por conjuntos de freqüências com duração bem definida no tempo. Embora também suscite controvérsias (a rigor uma freqüência deve se estender indefinidamente), esta idéia está mais próxima de nosso senso físico comum. Quando ouvimos alguém assobiar chamando um táxi (o conhecido "fiiiuuuiii") ou quando escutamos uma rádio FM, é possível identificar mudanças nas freqüências sem maiores preocupações teóricas.
É também sabido que as línguas orientais, sobretudo o chinês mandarim, são de natureza tonal, isto é, associam diferentes significados a diferentes formas de modulação nas freqüências dos fonemas. Portanto, a idéia de freqüências locais (ou instantâneas, conforme conceito desenvolvido por Gabor e Ville) encontra respaldo em nossa experiência cotidiana e pode ser aproveitada para a construção de algoritmos numérico-matemáticos de decomposição tempo-freqüência.
Em linhas gerais, a decomposição pode ser feita comparando o sinal analisado com famílias de funções bem localizadas no tempo e com freqüências igualmente bem caracterizadas. Em termos matemáticos, a comparação é realizada através de produtos escalares que resultam em números indicativos da semelhança entre sinal analisado e as funções de análise, com referência a instantes e freqüências específicos.
Diferentes famílias de funções de análise definem diferentes classes de distribuição tempo-freqüência. A chamada classe das Transformadas de Fourier a Curto Termo (ou classe de Cohen) é obtida construindo a família de funções de análise a partir de uma geratriz transladada no tempo e modulada em freqüência. Exemplos dessa abordagem são as funções retangular e gaussiana, dando origem ao Espectrograma e à Transformada de Gabor, respectivamente. Outra possibilidade seria construir a família de funções de análise a partir de uma onda de duração bem definida e, em vez da modulação em freqüência, gerar versões estendidas ou encurtadas com mudanças na escala no suporte da onda geratriz. Essa estratégia conduz à classe chamada afim, da qual as transformadas do tipo wavelets (ou ondeletas) são exemplos bastante importantes, sobretudo devido ao seu extraordinário desenvolvimento nos últimos anos.
A figura abaixo mostra as Transformadas de Gabor da escala correspondente à partitura, executada na clave de sol por uma flauta e por uma guitarra (diagrama central). É possível observar que as notas mais graves da flauta possuem diversos harmônicos, o que define seu timbre. Já as mais agudas são quase que perfeitamente harmônicas, o que significa que a pressão acústica no interior da flauta varia de forma mais ou menos senoidal. No caso da guitarra, o som produzido pela vibração das cordas é bastante complexo, o que se reflete na grande quantidade de freqüências além das fundamentais e respectivas harmônicas. Em ambos os casos, pode-se constatar claramente a limitação da Transformada de Fourier que, embora seja capaz de identificar as freqüências presentes no som, não evidencia quando essas freqüências ocorreram.
Mas retomando o diálogo inicial, como a análise tempo-freqüência pode ser utilizada para detectar na fala do sr. Silva indícios sobre seu estado de espírito? Primeiro, é importante constatar que a análise tempo-freqüência é uma excelente forma de transformar sons em imagens. A fala pode ser analisada por uma RN de forma análoga à análise do rosto, ou seja, através da parametrização de estruturas características. Do ponto de vista da teoria das representações, a informação codificada no sinal da fala está distribuída sobre uma única dimensão (suporte temporal).
A transformação em um sinal de suporte bidimensional produz uma melhor distribuição da informação sobre o plano tempo-freqüência e facilita o reconhecimento de estruturas características. É uma situação análoga a um jogo de cartas: identificar as possibilidades segurando todas as cartas na mão (uma dimensão) não é tão simples quanto espalhá-las sobre a mesa (duas dimensões) e relacionar pares, seqüências etc. Quando nossa fala é transcrita sobre o plano tempo-freqüência, tanto suas características estruturais básicas quanto pequenas alterações de origem emocional tornam-se muito mais evidentes e, em conseqüência, facilmente identificáveis.
Um locutor diz "Era uma vez uma linda princesa...", em voz clara e sem nenhuma entonação especial. Em seguida, o mesmo locutor diz a mesma frase com o mesmo timbre, porém com voz trêmula e entonação imitando uma pessoa idosa. As respectivas Transformadas de Gabor mostram assinaturas vocais estruturalmente idênticas, o que indica tratar-se da mesma pessoa. Por exemplo, a palavra "Era" (entre 0,5 e 1,5 segundo) é pronunciada com a mesma freqüência fundamental de aproximadamente 200 Hz com harmônicos significativos indo até cerca de 600 Hz. Também os fonemas "prin" e "ce" da palavra "princesa", ~5,0 s e ~4.5 s respectivamente na pronúncia normal e tremida, formam uma estrutura côncava característica, indicando a transição da alta freqüên-cia associada ao "i" (~600 Hz) para a baixa freqüência associada ao "e" (~150 Hz). O tremido da entonação de uma pessoa de idade aparece claramente como uma oscilação do conteúdo em freqüência de cada uma das palavras pronunciadas. Essa característica é particularmente evidente nas palavras "Era" e "uma" (~2,0 s a 2,5 s) cujas vogais foram propositadamente alongadas para enfatizar a entonação insegura imitada pelo locutor.
O diálogo entre o holograma e o sr. Silva mostra para onde pode nos levar a aplicação da IA em nosso cotidiano. A análise de imagens utilizando redes neurais, sejam elas diretas ou transcrições de sinais da fala, constitui apenas um exemplo da chamada computação bioinspirada em associação a técnicas avançadas de análise de sinais. O limite entre a ficção e o tecnologicamente possível pode se tornar tênue se considerarmos a aplicação de outras heurísticas bioinspiradas, como a lógica difusa e os algoritmos genéticos a áreas da robótica, quimitrônica, aeronáutica, micro e nanomecânica etc. Aliás, e o leitor mais imaginativo talvez tenha percebido, o próprio sr. Silva poderia ser um holograma e estar falando de seu trabalho, por exemplo. A telepresença é uma possibilidade concreta dentro da chamada realidade virtual, e suas bases tecnológicas estão em franco desenvolvimento. Mais especificamente, são três as tecnologias para sua realização prática: 1) interface do usuário, 2) sistema de transmissão e 3) interface do ambiente.
Quanto à interface do usuário, é necessário desenvolver conexões capazes de captar e aplicar estímulos diretamente de seu sistema neurológico para que ele possa experimentar sensações realistas. De fato isso vem sendo feito de forma experimental com animais e seres humanos, e já é possível controlar dispositivos simples com o pensamento (ver "Controlando robôs com a mente", de Miguel Nicolelis e John Chapin, Scientific American Brasil, novembro de 2002). Embora muito aquém do que seria necessário para criar uma realidade virtual, os avanços obtidos nessa linha de pesquisa apontam nessa direção. Este é exatamente o tema explorado no filme Matrix, um programa de realidade virtual criado por uma inteligência alienígena para controlar nossa mente e absorver "energia vital".
De forma análoga, o desenvolvimento da internet permite supor que, provavelmente em algumas décadas, os sistemas de transmissão terão abrangência, capacidade e velocidade suficientes para o tráfego de grandes quantidades de dados necessários à criação da realidade virtual. A associação de interfaces cerebrais com esta web do futuro permite supor que um simples telefone celular poderá servir de interligação entre mentes e computadores num único espaço cibernético. Com isso superaremos barreiras físicas e obteremos acesso a volumes incomensuráveis de informação. Não é difícil imaginar duas pessoas separadas em continentes diferentes, porém se comunicando diretamente através do pensamento. É a ciência e a tecnologia tornando a telepatia uma realidade.
Quanto à interface do ambiente, esta é necessária para que possamos receber informações e atuar no meio em que estamos sendo projetados. É necessário que nossas ações pensadas sejam efetivamente transformadas em ações no meio projetado, como pensar em abrir a porta de uma sala e ela se abrir. Da mesma forma, se a temperatura na sala for baixa, é necessário que experimentemos a sensação de frio correspondente.
Existem avanços tecnológicos importantes nesta área, assim como no desenvolvimento de interfaces cerebrais e sistemas de transmissão. Um exemplo bastante eloqüente é a chamada telecirurgia ou cirurgia a distância. Neste caso, os instrumentos robóticos são desenvolvidos de forma a reproduzir as funcionalidades da mão humana, tanto no que se refere a suas habilidades motoras quanto sensoras. Em outras palavras, além de realizar as ações de cortar, suturar e assim por diante, o telecirurgião precisa reproduzir o sentido do tato para que seja possível avaliar a flexibilidade de um tecido ou a pressão de um vaso sangüíneo com um simples toque.
Seja como for, não será necessário esperar muito e poderemos fazer compras ou ir a Marte, ou fazer compras em Marte, com a mesma facilidade com a qual encomendamos um livro pela internet. Será?