Atenção:
O eduCAPES é um repositório de objetos educacionais, não sendo responsável por materiais de terceiros submetidos na plataforma. O usuário assume ampla e total responsabilidade quanto à originalidade, à titularidade e ao conteúdo, citações de obras consultadas, referências e outros elementos que fazem parte do material que deseja submeter. Recomendamos que se reporte diretamente ao(s) autor(es), indicando qual parte do material foi considerada imprópria (cite página e parágrafo) e justificando sua denúncia.
Caso seja o autor original de algum material publicado indevidamente ou sem autorização, será necessário que se identifique informando nome completo, CPF e data de nascimento. Caso possua uma decisão judicial para retirada do material, solicitamos que informe o link de acesso ao documento, bem como quaisquer dados necessários ao acesso, no campo abaixo.
Todas as denúncias são sigilosas e sua identidade será preservada. Os campos nome e e-mail são de preenchimento opcional. Porém, ao deixar de informar seu e-mail, um possível retorno será inviabilizado e/ou sua denúncia poderá ser desconsiderada no caso de necessitar de informações complementares.
Metadados | Descrição | Idioma |
---|---|---|
Autor(es): dc.contributor | Ferreira, Anderson Almeida | - |
Autor(es): dc.creator | Figueiredo, Leandro Neiva Lopes | - |
Data de aceite: dc.date.accessioned | 2019-11-06T13:35:25Z | - |
Data de disponibilização: dc.date.available | 2019-11-06T13:35:25Z | - |
Data de envio: dc.date.issued | 2015-11-26 | - |
Data de envio: dc.date.issued | 2015-11-26 | - |
Data de envio: dc.date.issued | 2015 | - |
Fonte completa do material: dc.identifier | http://www.repositorio.ufop.br/handle/123456789/5840 | - |
Fonte: dc.identifier.uri | http://educapes.capes.gov.br/handle/capes/558830 | - |
Descrição: dc.description | Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto. | - |
Descrição: dc.description | A extração de dados de páginas web é uma importante tarefa para várias aplicações, como comparadores de preços, bibliotecas digitais e mineradores de dados. Grande parte dos dados necessários para essas aplicações é disponibilizada através de páginas de resultado de busca, onde cada resultado, chamado de search result record, representa um registro de um banco de dados. Um dos passos mais importantes para extrair esses registros é identificar, dentre as diferentes regiões de dados de uma página, aquela que contém os registros a serem extraídos, ou seja, a principal região de dados. Uma identificação errada dessa região pode resultar em uma extração incorreta dos search result records. Outro passo importante é a detecção e a separação de cada registro dentro dessa principal região de dados, bem como de seus respectivos atributos. Nesse trabalho, é proposto um método que, baseado nas informações de renderização dos elementos da página de resultado de busca, seleciona a sua principal região de dados e extrai seus registros e atributos. Experimentos utilizando páginas de vários domínios de aplicação mostram que o método é efetivo e competitivo em relação a alguns métodos já existentes. ________________________________________________________________________________________ | - |
Descrição: dc.description | ABSTRACT: Extracting data from web pages is an important task for several applications, such as comparison shopping and data mining. Much of that data is provided by search result pages, in which each result, called search result record, represents a record from a database. One of the most important steps for extracting such records is identifying, among di erent data regions from a page, one that contains the records to be extracted. An incorrect identi cation of this region may lead to an incorrect extraction of the search result records. Other important step is detecting and separating each record and its attributes inside the main data region. In this work, we propose a method that selects the main data region from a given search result page and extracts its records and their attributes based on the rendering area information of its elements. Experimental results using web pages from several domains show that the method is highly e ective and very competitive compared with some methods. | - |
Idioma: dc.language | pt_BR | - |
Direitos: dc.rights | Autorização concedida ao Repositório Institucional da UFOP pelo autor, 23/11/2015, com as seguintes condições: disponível sob Licença Creative Commons 4.0, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite a adaptação desta. | - |
Título: dc.title | Um método baseado em informações de renderização para extração de dados de páginas web. | - |
Tipo de arquivo: dc.type | livro digital | - |
Aparece nas coleções: | Repositório Institucional - UFOP |
O Portal eduCAPES é oferecido ao usuário, condicionado à aceitação dos termos, condições e avisos contidos aqui e sem modificações. A CAPES poderá modificar o conteúdo ou formato deste site ou acabar com a sua operação ou suas ferramentas a seu critério único e sem aviso prévio. Ao acessar este portal, você, usuário pessoa física ou jurídica, se declara compreender e aceitar as condições aqui estabelecidas, da seguinte forma: