Este ano foi um ano que tomamos coragem para ter dedicação exclusiva ao projeto. A partir disso, tivemos muitas realizações junto à comunidade, por isso gostaríamos de compartilhar estes feitos. Nossa motivação não apenas para mostrar o nosso trabalho, mas também engajar novas pessoas aos estudos na área de dados e tecnologia, como também, compartilharem seus avanços, aprendizados e lutas.

Lembramos que o projeto Téo Me Why é parceiro do Instituto Aaron Swartz na luta pela emancipação do conhecimento.

Sumário

No total, realizamos seis treinamentos para te ajudar nos conhecimentos básicos na área de dados. Além disso, realizamos seis projetos completamente mão na massa para você aplicar todos conhecimentos adquiridos anteriormente, além de te inspirar a caçar mais dados para crescer o seu portfólio. Confira abaixo a lista de tudo isso que você pode e deve aproveitar.

Além de todo material em vídeos, fornecemos diversos dados para que a comunidade possa se desenvolver.

Também não buscamos ficarmos restritos apenas ao nosso público. Realizamos parcerias muito legais com diversas outras comunidades, destacando:

Buscando contribuir com o desenvolvimento da comunidade, além de nossos materiais, apoiamos financeiramente diversas iniciativas:

  • Sorteio de +50 livros, cursos adesivos durante lives;
  • Patrocínio Python Sudeste;
  • Patrocínio Semana da Estatística (FCT-UNESP);
  • Doação para Mulheres em Dados;
  • Doação para o Instituto Aaron Swartz;

Treinamentos

Todos treinamentos foram realizados ao vivo e abertos para toda a comunidade. Qualquer pessoa com acesso à internet pode conferir pelos links fornecidos abaixo.

Plano de Carreira em Dados (01.2024)

Logo no início do ano, disponibilizamos um vídeo e planilha para que qualquer pessoa que tenha interesse pela área de dados, possa construir seu próprio plano de estudo. Essa iniciativa visa escalar a mentoria 1:1 que tínhamos ano passado. Com esse material, você pode identificar suas fortalezas e pontos a desenvolver para se tornar uma pessoa mais capacitadas para as posições do mercado.

Confira o vídeo: Plano de Carreira em Dados

Git & GitHub (02.2024)

Dando início às nossas atividades na trilha de dados, começamos com Git & GitHub para versionamento e organização de nossos códigos Abordamos tanto no ambiente local, como repositórios remotos. Foram dois dias intensos aprendendo sobre essa ferramenta muito utilizada no dia a dia na área de dados e tecnologia.

Confira essa playlist aqui: Git & GitHub

Python (02.2024)

Realizamos um curso de Python Básico, aprendendo os primeiros passos na área de Lógica e Programação. Conhecemos a sintaxe da linguagem mais utilizada na área de dados. Ensinamos desde a instalação, principais estruturas de dados, laços de repetição, função, importação e instalação de pacotes.

Confira o curso completo aqui: Python

Desbravando Pandas (03.2024)

Para manipulação de dados, por hora, não ha biblioteca mais popular do que Pandas! Por isso ministramos um treinamento com 15hr dessa biblioteca. Começamos com o básico, navegando em Series e Dataframes, para depois realizar manipulações mais complexas para nossas análises.

Confira todos os episódios aqui: Desbravando Pandas

Coleta de Dados (03.2024)

Agora, como sabemos o mínimo de como manipular dados no computador utilizando uma linguagem de programação, vamos coletar dados! Essa playlist trouxe algumas alternativas de como podemos obter dados na internet: crawlers, APIs, FTP. Como exemplo, consumimos dados do Resident Evil Database, Pokemon API, TabNews, etc. Além disso, demos uma breve introdução de como essas ingestão podem ser realizadas em um Datalake com Databricks.

Confira todas coletas de dados aqui: Coleta de Dados

Estatística Básica (04.2024)

Avançandos nos pilares de Data Science, a disciplina de Estatística não poderia ficar de fora. Realizamos cinco lives apresentando os principais conceitos, desde tabelas de frequência, medidas de posição e dispersão, conceitos de amostragem vs população, probabilidade, inferência de parâmetros e testes de hipóteses.

Confira todos estes conceitos e técnicas aqui: Estatística Básica

Machine Learning para Pôneis (06.2024)

Com a base estatística e computacional, podemos apresentar os principais modelos de Machine Learning, bem como as métricas de ajuste. De maneira bem didática e divertida, aprendemos a fazer alguns modelos “na mão” para depois aplicar utilizando o scikit-learn com várias dicas de utilização, como a estrutura de pipelines e transformadores de variáveis para pre-processamento dos dados.

Confira os principais algoritmos e métricas de performance aqui: Machine Learning para Pôneis


Projetos de Dados

Todos os projetos foram realizados ao vivo e abertos para toda a comunidade. Entretanto, as gravações são destinadas à quem apoia a nossa iniciativa, sendo membro no YouTube ou Sub na Twitch.

RecSys de Vagas - Feat. Trampar de Casa (04.2024)

Graças a visibilidade com o apoio da comunidade, fomos convidados a realizar nosso primeiro freelance! A iniciativa Trampar de Casa necessitava de uma upgrade para seu sistema de recomendações das vagas. Isto é, com base nas skills requisitadas de cada vaga, como podemos recomendar a melhor lista de vagas para o usuário que está procurando vagas para se candidatar? Foi com isso em mente que criamos um algoritmos para rankear as melhores vagas para cada usuário da plataforma. Ficou bem legal e tivemos um ótimo feedback!

Confira esse desenvolvimento: RecSys de Vagas

Data Science & Pontos (06.2024)

Para colocar em prática tudo que aprendemos até aqui, criamos um projeto de Data Science completo, de início ao fim em ambiente local. Projeto foi completo mesmo! Desde a definição do problema de negócio e features, construção das feature store de diferentes contextos, treinamento de diferentes algoritmos, e deploy realizado utilizando o model registry do MLFlow em nosso BOT com uma API em GoLang. E ah, tudo isso com dados reais do nosso sistema de pontos da live!

Se liga nesse projeto que você pode fazer na sua própria máquina: Data Science & Pontos / Sub Twitch

Lago do Mago (07.2024)

Construção de um Datalake e Lake house completamente do zero, desde a criação do ambiente na AWS e Databricks até a criação de dashboard. Utilizamos dados reais de nosso sistema de pontos, realizando ingestão na camada RAW. Para consumo e consolidação dos dados em BRONZE, utilizamos leitura dos dados FULL-LOAD e CDC (Change Data Capture) em streaming realizando UPSERT em DELTA. Para camada SILVER, utilizamos novamente Streaming, mas desta vez com CDF (Change Data Feed). Em GOLD criamos alguns CUBOS para relatórios em dashboards.

Quer saber como criar um datalake? Corre assistir essa playlist: Lago do Mago / Sub Twitch

Data Science no Databricks (08.2024)

Construção completa de um projeto de Data Science do início ao fim em ambiente cloud! Vamos usar as principais ferramentas de Data Science no Databricks, como Feature Store, Workflows e MLFlow para ciclo de vida dos modelos. Tudo isso utilizando o Unity Catalog para tracking dos dados e modelos. Esse projeto e uma continuação do Lago do Mago, porém, voltado à Cientista de Dados. Uma boa forma de entender isso, é como se fizéssemos o projeto Data Science & Pontos não mais localmente, mas sim, no Databricks.

Assista como aproveitar as ferramentas de DS no Databricks: Data Science no Databricks / Sub Twitch

TSE Analytics (08.2024)

Análise dos partidos políticos e suas candidaturas para eleições municipais brasileiras em 2024. Todas dados são originários do TSE. Além da criação do app, migramos toda parte de ingestão e tratamento dos dados para nosso ambiente cloud no Databricks. Você pode conferir o app aqui.

Todo desenvolvimento deste projeto está aqui: TSE Analytics / Sub Twitch

Trampar de Lakehouse (09.2024)

Dado o bom trabalho que realizamos em conjunto com Trampar de Casa no sistema de recomendação de vagas, surgiu uma nova oportunidade pra construção de um datalake e BI para eles acompanharem as principais métricas da operação que estão tocando. O desenvolvimento consistiu em: criação de um Lakehouse com camadas bronze, silver e gold para criação de relatórios e dashboards. Usamos:

  • AWS S3 para armazenamento dos dados em Raw
  • Databricks como plataforma de dados
  • Apache Spark para leitura, processamento e gravação dos dados
  • SQL para criação de queries e regras de negócios e qualidade de dados
  • Python para orquestração das etapas de ETL
  • Databricks Workflows para orquestração de todas ingestões e transformações de dados

Confira como fizemos tudo isso em 8hrs de live: Trampar de Lakehouse / Sub Twitch


Carreira e Mercado de Trabalho

Nossas lives são um ambiente propício para conversas e reflexões sobre carreira e vida pessoal. Além disso, algumas ideias que organizo melhor offline também são merecedoras de compartilhamento, por isso trago elas aqui. Não menos importante, temos convidados especiais que participaram de nossas lives trazendo suas experiências em um clima de conversa agradável.

Lições em Aula (07/2024)

Nossas discussões em live são muito ricas. Sempre conversamos sobre algo que pode acrescentar na vida e carreira das pessoas. por isso, deparamos um espaço para alguns cortes menores para que você pode aproveitar caso tenha perdido essa conversa ao vivo.

Cortes menores das nossas lives: Lições em Aula

Data Delivery (08.2024)

Criamos esse quadro no nosso canal do YouTube para compartilhar tanto a minha história no período acadêmico, como também minha evolução como profissional. Ao longo desses +14 anos de jornada na área, comento sobre os principais desafios, conquistas e aprendizados, além de dicas que daria ao Téo do passado.

Confira esses vídeos reflexivos: Data Delivery

Téo Me Who (08.2024)

Em nosso quadro com convidados, temos muitas trocas de experiências e especulações do que será o futuro da área de tecnologia e dados.

Não deixe de assistir quem participou dessas conversas: Téo Me Who

Téo Me Watch (09.2024)

Resolvemos fazer react de alguns vídeos, por isso, nada mais justo do que uma playlist voltada a isso: Téo Me Watch


Projetos Backend

Uma das minhas metas para 2024 era aprender mais sobre o tema de backend, por isso construímos muitas coisas ao vivo. Nem todas elas ficaram gravadas, mas algumas estão disponíveis para você assistir e me acompanhar nessa jornada de desenvolvimento. Intealksos em live para que nossos usuários possam acumular pontos, realizar trocas e se divertir em nosso programa de fidelidade. Com isso, passamos a conhecer mais sobre nossos usuários, e até possibilitando a utilização desses dados para estudos na área de Data Science. Fizemos com GoLang.

Confira eu machucando o Gopher aqui: Sistema de Pontos (GoLang)

Café e Pontos (05.2024)

Criação de um sistema de pontos para a lojinha/café da minha mãe e irmã. Resolvemos fazer dessa vez em python, sem reaproveitamento do sistema anterior.

Se liga como usamos NiceGUI para isso: Café e Pontos

Points to Go (09.2024)

Perdemos o código fonte do primeiro projeto de GoLang com nosso sistema de pontos, mantendo apenas o binário da aplicação. Dessa forma, estamos reconstruindo tudo do zero, com novos aprendizados, utilizando Gorm por exemplo.

Confira minha evolução aqui: Points to Go


Dados Abertos

Analytical Base Table Churn (06.2024)

Base de dados pronta para realizar treinamento de modelos de Machine Learning para classificação no contexto de churn de usuário. A base foi criada a partir de dados reais a partir do nosso sistema de pontos.

Baixe os dados do Kaggle aqui

TeoMeWhy Loyalty System (06.2024)

Sempre me incomodei e não ter uma base real que tenha atualização recorrente para realizar alguma coisa além do .fit. Então, disponibilizamos para toda comunidade dados reais do nosso sistema de pontos com atualização diária. Assim, você pode criar aplicações de dados a partir desses dados reais e com atualização. Não deixe de dar seu upvote!

Baixe os dados do Kaggle aqui

TSE - Analytics (09.2024)

Fruto de nosso ETL com os dados do TSE, criamos um base de dados bem interessando, um cubo analítico com diferentes dimensões para análise.

Baixe os dados do Kaggle aqui


Participação em Comunidades

Mulheres em Dados

Tive a honra e prazer de realizar um workshop de solução completa de ciência de dados com a comunidade Mulheres em Dados. Foram cinco encontros ao vivo, com muito aprendizado e colaboração. Dividimos as mulheres em grupos, onde puderam criar soluções customizadas de dados com base no conhecimento e problema de negócio que tivessem interesse em trabalhar.

No total, tivemos mais de 1.000 inscrições, onde todas elas tiveram acesso ao meu ambiente no Databricks para trabalhar com os dados disponíveis. Ou seja, além das aulas, elas tiveram acesso às melhores ferramentas no mercado.

InTalks

A convite de Rachel Lins e Heitor Sasaki participei do InTalks contando um pouco sobre minha carreira e como começar em dados. Foi um bate papo super descontraído e divertido.

Retornei ao InTalks mais algumas vezes, mas na posição de co-host, auxiliando Raquel nas entrevistas de convidados mega interessantes de se conhecer. Se liga em todos links aqui abaixo:

Eduardo Mendes (live de python)

Fiquei muito feliz de ser convidado para falar sobre “Como e porque criar um Datalake para comunidade” na live do Eduardo Mendes (aka Dunossauro). Foi um momento muito legal para aproximar o mundo de dados e desenvolvimento de software.

Confira a minha participação no maior canal de Python do Brasil: Porque e como construir um datalake para a comunidade

Jornada de Dados

A pedido do Luciano Vasconcelos, fizemos uma live MUITO mão na massa apresentando o Databricks como plataforma de dados. Mais do que só apertar botões, mostramos o conceito de muita coisa e vários detalhes da plataforma.

Confira como foram essas +2hrs de transmissão: Como sair do ZERO no DATABRICKS - ETL com Data Lakehouse

Papinho Tech

Fui entrevistado pelo Gustavo Caetano em um bate papo bem descontraído. Aqui você pode conhecer mais detalhes sobre minha trajetória e realizações: TÉO CALVO (Mago dos Dados) - Papinho Tech