Impact of template removal on Web search DOI 10.5752/P.2316-9451.2012v1n1p28

  • Kaio Wagner UFAM
  • Edleno Silva de Moura UFAM
  • David Fernandes UFAM
  • Marco Cristo UFAM
  • Altigran Soares da Silva UFAM

Resumo

Previous work in literature has indicated that template of web pages represent noisy information in web collections, and advocate that the simple removal of template result in improvements in quality of results provided by Web search systems. In this paper, we study the impact of template removal in two distinct scenarios: large scale web search collections, which consist of several distinct websites, and intrasite web collections, involving searches inside of web sites.  Our  work  is the  first  in literature to  study the  impact of template removal  to  search systems in large  scale  Web  collections. The study was carried out using an automatic template detection method previously proposed by us. As contributions, we present statistics about the application of this automatic template detection method to the well known GOV2 reference collection, a large scale Web collection. We also present experiments comparing the amount of template detected by our automatic method to the ones obtained when humans select templates. And finally, experiments which indicate that, in both experimented scenarios, template removal does not improve the quality of results provided by search systems, but can play the role of an effective loss compression method by reducing the size of their indexes.

Downloads

Não há dados estatísticos.

Biografia do Autor

Kaio Wagner, UFAM
Possui graduação em Ciência da computação pela Universidade Federal do Amazonas (2008) e mestrado em Informática pela Universidade Federal do Amazonas (2011). Tem experiência na área de Ciência da Computação com ênfase em Recuperação de informação.
Edleno Silva de Moura, UFAM
Edleno Silva de Moura graduou-se em Processamento de Dados na UFAM em 1994 e obteve o grau de Doutor em Ciência da Computação na UFMG em 1999, sendo o primeiro aluno do curso a concluir o doutorado sem ter se formado mestre. Após seu doutoramento, atuou como Diretor de Tecnologia da empresa Akwan S/A até 2002. Desde 2002 atua no Departamento de Ciência da Computação da UFAM como professor Adjunto. Em 2005, assumiu a coordenação do Programa de Pós-Graduação em Informática da UFAM, ocasião em que elaborou com outros professores o projeto de criação do curso de doutorado em informática da UFAM, primeiro curso de doutorado na área em toda a região norte e centro-oeste do país. Atualmente écoordenador PPGI-UFAM (período 2010 até 2012), onde atua como orientador de alunos de mestrado e doutorado; pesquisador com Bolsa de Produtividade em Pesquisa do CNPq desde 2002; membro do Comitê de Atividades de Pesquisa e Desenvolvimento da Amazônia (CAPDA) desde 2003, onde atuou na implantação do fundo setorial da Amazônia (CT-Amazônia); e membro do conselho superior da Fundação de Amparo à Pesquisa do Amazonas (FAPEAM), onde também já atuou na Câmara de Pesquisa.
David Fernandes, UFAM

David Braga Fernandes de Oliveira possui graduação em Bacharelado em Processamento de Dados pela Universidade Federal do Amazonas (2001), mestrado em Informática pela Universidade Federal do Amazonas (2004) e doutorado em ciência da computação pela Universidade Federal de Minas Gerais (2010). Tem experiência na área de Ciência da Computação, com ênfase em Recuperação de Informação, atuando principalmente nos seguintes temas: busca em conteúdo estruturado, desenvolvimento web e blended learning.

Marco Cristo, UFAM
Marco Antônio Pinheiro de Cristo possui graduação em Bacharelado em Processamento de Dados pela Universidade Federal do Amazonas (1995), graduação em Tecnologia Eletrônica pelo Instituto de Tecnologia do Amazonas (1994), mestrado em Ciências da Computação pela Universidade Federal de Minas Gerais (1998) e doutorado em Ciência da Computação pela Universidade Federal de Minas Gerais (2006). Atualmente é professor do Instituto de Computacão da Universidade Federal do Amazonas. Tem experiência na área de Ciência da Computação, com ênfase em Recuperação de Informação, Mineração de Dados e Bibliotecas Digitais.
Altigran Soares da Silva, UFAM
Altigran Soares da Silva é professor associado do Instituto de Computação da Universidade Federal do Amazonas (IComp/UFAM) onde atua como pesquisador, professor e orientador na graduação, mestrado e doutorado. Concluiu seu doutorado em Ciência da Computação pela Universidade Federal de Minas Gerais (UFMG) em 2002. Seus interesses de pesquisa envolvem Gerência de Dados, Recuperação de Informação e Mineração de Dados com ênfase no ambiente da World-Wide Web. Sobre estes temas, tem coordenado e participado de dezenas de projetos de pesquisa que resultaram em mais de 100 publicações científicas em periódicos e anais de conferência de boa qualidade nestas áreas. Em 2007 foi o Coordenador do Comitê de Programa do Simpósio Brasileiro de Bancos de Dados (SBBD) e em 2010 atuou com co-chair da trilha "Bridging Structured and Unstructured Data" da International World Wide Web Conference. Participou também como membro de comitês técnico de programa em cerca de 40 conferências e workshops realizados no Brasil e no Exterior. Em 2012, foi indicado como palestrante convidado para o SBBD. Exerceu entre 2007 e 2009 a Pró-reitoria de Pesquisa e Pós-Graduação da UFAM. É atualmente o Coordenador Adjunto da área de Computação na CAPES e desde 2005 é membro da diretoria da Sociedade Brasileira de Computação (SBC). É co-fundador de empreendimentos de tecnologia, entre eles a Akwan Information Technologies, adquirida pela Google Inc. em 2005.
Publicado
30-11-2012
Como Citar
Wagner, K., Moura, E. S. de, Fernandes, D., Cristo, M., & Silva, A. S. da. (2012). Impact of template removal on Web search DOI 10.5752/P.2316-9451.2012v1n1p28. Abakós, 1(1), 28-49. https://doi.org/10.5752/P.2316-9451.2012V1N1P28
Seção
Artigos convidados / Invited papers