Autor Tópico: Mecanismo de busca de código livre encontra dados em tabelas  (Lida 438 vezes)

0 Membros e 1 Visitante estão vendo este tópico.

Offline Unknown

  • Conselheiros
  • Nível Máximo
  • *
  • Mensagens: 11.331
  • Sexo: Masculino
  • Sem humor para piada ruim, repetida ou previsível
Mecanismo de busca de código livre encontra dados em tabelas
« Online: 14 de Agosto de 2007, 16:30:55 »
Mecanismo de busca de código livre encontra dados em tabelas

O algoritmo de buscas do Google revolucionou a Internet. Chamado de PageRank, esse programa originalmente desenvolvido na Universidade de Stanford, Estados Unidos, coloca ao alcance dos usuários uma quantidade de dados muito maior do que qualquer ser humano é capaz de "digerir".

Tabelas escondidas

Mas o PageRank não é perfeito. E uma enormidade de dados ainda ficam "escondidos" pela Internet. Ou, se não estão exatamente escondidos, eles não aparecem nos resultados das buscas com a relevância que possuem.

Este é o caso das tabelas. Esta disposição bidimensional de dados está presente em nada menos do que 70% de todos os artigos científicos publicados. E não é à toa: as tabelas permitem a comparação e a visualização rápida de dados. Hoje, porém, o título de uma tabela não possui um peso maior do que os comentários em um blog quando os crawlers dos mecanismos de busca varrem os sites.

Mecanismo de busca de tabelas

Isso agora poderá mudar, graças ao trabalho de um grupo de pesquisadores da Universidade de Pensilvânia, Estados Unidos. Eles desenvolveram um novo algoritmo de busca que consegue não apenas localizar e extrair tabelas do interior de uma série de tipos de documentos - como PDF, HTML e Word - como também é capaz de indexar e classificar os resultados utilizando dados como o título da tabela, as referências de texto e a data da publicação.

A equipe do Dr. Prasenjit Mitra não é boa apenas na construção de algoritmos: eles logo perceberam o potencial de seu novo mecanismo de buscas de tabelas e usaram seu tino comercial para batizá-lo de ... TableRank, numa clara alusão ao super bem sucedido mecanismo de buscas do Google.

Colunas de dados

O algoritmo TableRank já foi incorporado em um programa prático de buscas, o TableSeer. "O TableSeer torna fácil para cientistas e acadêmicos descobrir e acessar importantes fontes de informação apresentados na forma de tabelas e, tanto quanto sabemos, ele é o primeiro mecanismo de buscas para tabelas," diz Mitra.

O programa permite a execução de buscas por colunas, facilitando a localização de uma determinada coluna em uma tabela - como, por exemplo, os preços do petróleo, os valores calóricos de determinadas substâncias ou uma tabela de códigos genéticos.

Código livre

O desenvolvimento do TableSeer é parte de um projeto de código livre que está desenvolvendo uma infraestrutura de pesquisas na área de química. O programa já pode ser avaliado online, mas o código-fonte somente será disponibilizado ao final do projeto.

Bibliografia: TableSeer: Automatic Table Metadata Extraction and Searching in Digital Libraries
Ying Liu, Kun Bai, Prasenjit Mitra, C. Lee Giles
ACM IEEE Joint Conference on Digital Libraries
2007
http://chemxseer.ist.psu.edu/about/digital_library/Liu-JCDL2007.pdf
 
http://www.inovacaotecnologica.com.br/noticias/noticia.php?artigo=010150070813

"That's what you like to do
To treat a man like a pig
And when I'm dead and gone
It's an award I've won"
(Russian Roulette - Accept)

 

Do NOT follow this link or you will be banned from the site!