Métodos digitais e a memória acessada por APIs: desenvolvimento de ferramenta para extração de dados de portais jornalísticos a partir da WayBack Machine
Journal: Revista Observatorio (Vol.1, No. 2)Publication Date: 2015-10-12
Authors : Marcio Carneiro Dos Santos;
Page : 23-41
Keywords : Raspagem de dados. Python Jornalismo Digital. HTML. Memória.;
Abstract
Explora-se a possibilidade de automação da coleta de dados em sites, a partir da aplicação de código construído em linguagem de programação Python, utilizando a sintaxe específica do HTML (HiperText Markup Language) para localizar e extrair elementos de interesse como links, texto e imagens. A coleta automatizada de dados, também conhecida como raspagem (scraping) é um recurso cada vez mais comum no jornalismo. A partir do acesso ao repositório digital do site www.web.archive.org, também conhecido como WayBackMachine, desenvolvemos a prova de conceito de um algoritmo capaz de recuperar, listar e oferecer ferramentas básicas de análise sobre dados coletados a partir das diversas versões de portais jornalísticos ao longo do tempo.
Other Latest Articles
- Em busca da (inter)nacionalização das produções científicas
- Editorial, ou à guisa de um começo
- Construindo a memória e identidade no Tocantins
- Projeto múltiplos olhares: o exercício do documentário etnográfico na formação do jornalista
- Cidade. City. Cité. Smartcity. O espaço contemporâneo do Período Técnico Científico Informacional. Duas experiências globais
Last modified: 2015-12-16 22:25:08