
Atenção:
O eduCAPES é um repositório de objetos educacionais, não sendo responsável por materiais de terceiros submetidos na plataforma. O usuário assume ampla e total responsabilidade quanto à originalidade, à titularidade e ao conteúdo, citações de obras consultadas, referências e outros elementos que fazem parte do material que deseja submeter. Recomendamos que se reporte diretamente ao(s) autor(es), indicando qual parte do material foi considerada imprópria (cite página e parágrafo) e justificando sua denúncia.
Caso seja o autor original de algum material publicado indevidamente ou sem autorização, será necessário que se identifique informando nome completo, CPF e data de nascimento. Caso possua uma decisão judicial para retirada do material, solicitamos que informe o link de acesso ao documento, bem como quaisquer dados necessários ao acesso, no campo abaixo.
Todas as denúncias são sigilosas e sua identidade será preservada. Os campos nome e e-mail são de preenchimento opcional. Porém, ao deixar de informar seu e-mail, um possível retorno será inviabilizado e/ou sua denúncia poderá ser desconsiderada no caso de necessitar de informações complementares.
| Metadados | Descrição | Idioma |
|---|---|---|
| Autor(es): dc.contributor | Hara, Carmem Satie, 1964- | - |
| Autor(es): dc.contributor | Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática | - |
| Autor(es): dc.creator | Reips, Lisiane | - |
| Data de aceite: dc.date.accessioned | 2025-09-01T12:27:50Z | - |
| Data de disponibilização: dc.date.available | 2025-09-01T12:27:50Z | - |
| Data de envio: dc.date.issued | 2024-01-30 | - |
| Data de envio: dc.date.issued | 2024-01-30 | - |
| Data de envio: dc.date.issued | 2022 | - |
| Fonte completa do material: dc.identifier | https://hdl.handle.net/1884/86318 | - |
| Fonte: dc.identifier.uri | http://educapes.capes.gov.br/handle/1884/86318 | - |
| Descrição: dc.description | Orientador: Carmem Satie Hara | - |
| Descrição: dc.description | Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 18/10/2023 | - |
| Descrição: dc.description | Inclui referências | - |
| Descrição: dc.description | Área de concentração: Ciência da Computação | - |
| Descrição: dc.description | Resumo: A transição dos meios de comunicação tradicionais para o ambiente digital abrange diversas áreas. Dentre estes meios, destacam-se os jornais, que têm disponibilizado seu conteúdo online, permitindo o acesso a uma diversidade de dados na Web. Para explorar estes dados, eles precisam ser extraídos, armazenados, organizados e filtrados de acordo com os interesses da aplicação. Entretanto, os sistemas que viabilizam esses processos nem sempre dão suporte a todas as funcionalidades. Alguns focam somente em extração e armazenamento, enquanto outros englobam extração, processamento e transformação. Há ainda aqueles que abrangem somente a transformação e filtragem. Nesse contexto, surge o Extrator de Notícias da Web1 (ENoW), um sistema de coleta de dados de jornais online que pré-processa os dados coletados, com o intuito de filtrar apenas as notícias de interesse do usuário. O ENoW aceita como entrada strings de busca, realiza a coleta de notícias relacionadas àquela string e armazena as notícias coletadas em uma base de dados relacional. O sistema mantém a proveniência dos dados, bem como um log com histórico de extrações. Ele foi implementado na linguagem de programação Python, utilizando técnicas de Web Scraping. A avaliação do ENoW foi realizada por meio de uma análise experimental. O processo envolve a coleta de dados de notícias de um conjunto de URLs, seguido do pré-processamento destes dados. Além disso, são empregados algoritmos de aprendizado de máquina e cálculos de semelhança de textos para a filtragem das notícias. Um estudo de caso sobre notícias referentes a caravelas-portuguesas (cnidário Physalia physalis) mostra o desempenho do processo de filtragem. Palavras-chave: Extração de Notícias. Armazenamento Relacional. | - |
| Descrição: dc.description | Abstract: The transition from traditional media to the digital environment covers many areas. Newspapers around the world have made their content available online, allowing access to a variety of data on the Web. To exploit this data, they need to be extracted, stored, organized and filtered according to the interests of the application. However, the systems that enable these processes don't always support all the functionalities. Some focus only on extraction and storage, while others encompass extraction, processing and transformation. There are also those that only cover transformation and filtering. In this context, we have developed the Extractor de Notícias da Web (ENoW). It is a system for collecting data from online newspapers and for processing the collected data in order to filter out only the news of interest to the user. ENoW accepts a set of strings as input, collects news related to that string, and stores the collected news in a relational database. The system maintains the provenance of the data, as well as a log with the history of extractions. It was implemented in Python using Web Scraping techniques. We have conducted an experimental analysis involving the collection of news data from a set of URLs. The system pre-processes this data and uses machine learning algorithms and text similarity calculations to filter the news. A case study of news involving Portuguese man-of-war (cnidarian Physalia physalis) shows the effectiveness of the filtering process. Keywords: News Extraction. Relational Storage. | - |
| Formato: dc.format | 1 recurso online : PDF. | - |
| Formato: dc.format | application/pdf | - |
| Formato: dc.format | application/pdf | - |
| Palavras-chave: dc.subject | Agências de notícias | - |
| Palavras-chave: dc.subject | Jornais eletrônicos | - |
| Palavras-chave: dc.subject | World Wide Web (Sistema de recuperação da informação) | - |
| Palavras-chave: dc.subject | Redes de informação | - |
| Palavras-chave: dc.subject | Sistemas de recuperação da informação | - |
| Palavras-chave: dc.subject | Ciência da Computação | - |
| Título: dc.title | ENoW : um extrator de notícias da Web | - |
| Aparece nas coleções: | Repositório Institucional - Rede Paraná Acervo | |
O Portal eduCAPES é oferecido ao usuário, condicionado à aceitação dos termos, condições e avisos contidos aqui e sem modificações. A CAPES poderá modificar o conteúdo ou formato deste site ou acabar com a sua operação ou suas ferramentas a seu critério único e sem aviso prévio. Ao acessar este portal, você, usuário pessoa física ou jurídica, se declara compreender e aceitar as condições aqui estabelecidas, da seguinte forma: