Há alguns anos me deparei com o uso da programação para raspagem de dados na internet seja por meio de APIs ou simplesmente varrendo páginas e páginas de HTML. O assunto me pareceu bem interessante e uma forma de praticar. Logo depois me deparei com uso dessas técnicas para áreas diversas e segmentos como jornalismo ou mesmo para Analise de Dados e trabalhos de pesquisa em machine learning, um ramo interessantíssimo da inteligência artificial. Assim pensei que poderia unir meu gosto pela programação com a matemática e quem sabe até a arte.
Com a chegada de tecnologias como GPT, "generative pre-trained transformer", usado no chatGPT da openAI por exemplo bem como o "Stable Difusion" usado para geração de imagens comecei a imaginar as possibilidades e achei bem curioso o assunto. Claro que meu arcabouço ferramental técnico em matemática e computação ainda não me permitem desenvolver programas dentro destes tópicos. Considero que estes assuntos devem ser visto de forma cautelosa e mais rigorosa distante dos ruídos das grandes mídias e redes sociais para afastar-se da euforia e compreender que essas tecnologias tem suas limitações e se aplicam a problemas e situações especificas e que nem sempre entregarão os melhores resultados possíveis.
Uma das possibilidades que vi envolvendo as raspagem de dados, analise e machine learning foi acessando dados públicos do governo para analisar gastos por exemplo, como fiz para fins de estudos básicos e coloquei em meu repositório github neste link https://github.com/wsricardo/eda-tcs, onde é usados dados de contas do senado brasileiro como gastos de seus membros.
Acredito que essas tecnologias tem papel fundamental na democratização e acesso a informação provendo a população melhores recursos para tomadas de decisões quanto ao futuro de sua vida, empreendimentos e país.
Recentemente, assim, resolvi criar um canal que usando um bot e crawler (agregador) de notícias que escrevi faz varredura em alguns portais e salva links de artigos jornalísticos para futuras consultas e os entrega em atualizações diárias em um canal do Telegram. No momento estou com mais de 1500 links de notícias salvos distribuídos em arquivos json. Acabo por usar estes quando necessito buscar algum tópico para criar meus cartuns, como o que publiquei recentemente sobre o "arcabouço fiscal". Estes projetos contudo são humildes e de fins didáticos servindo-me para estudo e ferramenta a auxiliar-me em algumas coisas.
Deixo abaixo alguns links. Outros são possíveis serem encontrados em meu Github ou aqui mesmo no blog.
Agradece ao leitor,
WSRicardo
Links
2. EDA-TCS (Acessando dados abertos sobre gastos do senado brasileiro).
Nenhum comentário:
Postar um comentário