Olá, seja muito bem-vindo (a) ao meu portfólio
de projetos de Ciência de dados

Nessa página, eu demonstro minhas habilidades de resolver problemas de negócio utilizando conceitos e ferramentas da Ciência de dados, através de projetos com dados públicos.
Você vai encontrar também minhas experiências profissionais, habilidades, ferramentas e conceitos envolvendo a Ciência de Dados.
Sinta-se à vontade para entrar em contato através dos links no final da página.

Sobre mim

Meu nome é Samuel Oliveira

Sou formado em Ciências Contábeis e atualmente trabalho como Data Scientist na VLGI.

Anteriormente, trabalhei como assistente contábil em um escritório de contabilidade, onde realizava conciliações financeiras e produção de documentos contábeis para os clientes do escritório.

Além disso, desenvolvi projetos pessoais sobre Ciência de Dados para adquirir experiência na solução de problemas de negócio e domínio sobre as ferramentas de análise de dados.

Habilidades

Linguagens de Programação e Banco de Dados

Python com foco em análise de dados.
Web scraping com Python.
SQL para extração de dados.
Banco de Dados SQLite, MySQL, Postgres, AWS S3 e MongoDB.

Estatística e Machine Learning

Estatística descritiva (localização, dispersão, assimetria, kurtosis, densidade).
Limpeza de dados, feature engineering, preparação de dados, técnicas de balanceamento, seleção de atributos e redução de dimensionalidade.
Algoritmos de regressão, classificação, “rank-to-learn”, clusterização, time series, métodos de ensemble e Multi-Armed Bandit.
Métricas de performance dos algoritmos de regressão, classificação e clusterização.
Pacotes de Machine Learning: Sklearn, XGBoost, LightGBM, Scipy, Stats models e Keras.

Visualização de Dados

Matplotlib, Seaborn, Ploty e Folium.
Streamlit Webapp e Metabase

Engenharia de Software

Git, Github, Gitlab, Cookiecutter, Virtual Environment, Kedro.
Flask, Python API’s, Telegram bot e Google Sheets.
AWS, Fly.io e Cloud Heroku.

Experiências

6+ meses como Cientista de Dados

(Novembro 2022 – Atualmente )
Trabalho como cientista de dados onde contribuo com projeto de dados com foco na otimização de carteira de clientes.

9 Projetos completos de Ciência de Dados

Construção de soluções de dados para problemas de negócio, próximos dos desafios reais das empresas, utilizando dados públicos de competições de Ciência de Dados, onde eu abordei o problema desde a concepção do desafio de negócio até a publicação do algoritmo treinado em produção, utilizando ferramentas de Cloud Computing.

1 ano como Auxiliar Contábil

(Agosto 2021 – Novembro 2022 )
Conciliações das movimentações financeiras de clientes do ramo Cooperativista, treinamento para os clientes na utilização de softwares de gestão com foco financeiro.

2 anos como estagiário no setor Financeiro

(Março 2019 – Agosto 2021 )
Produção de relatórios financeiros, controle de contas a pagar e a receber, produção de folhas de pagamento e suporte ao cliente.

Projetos em Ciência de Dados

Elasticidade de Preço aplicada ao E-commerce

Projeto com objetivo de entender a relação entre a demanda de produtos e suas alterações de preço para uma empresa de e-commerce. O projeto realiza um cálculo detalhado da elasticidade de preço para cada produto e simula cenários variados de alterações de preço para prever o impacto na demanda e na receita. A implementação do projeto permite à empresa otimizar seus preços de acordo com a sensibilidade da demanda, potencialmente maximizando a receita e a lucratividade.

As ferramentas utilizadas foram:

Python, Pandas, Numpy, Statsmodels.
Streamlit para visualização interativa.
Git e Kedro.
Machine learning para previsão de demanda e cálculo de elasticidade de preço.
Minimos quadrados ordinários (OLS) para regressão.
Estratégias de simulação para prever o impacto de alterações de preço.

Saiba Mais

Teste Multi-Armed Bandit para otimização de página

O projeto teve como objetivo implementar e executar um experimento online utilizando a abordagem Multi-Armed Bandit para otimizar a interação do usuário em um site de e-commerce. O experimento expôs usuários a diferentes versões de uma página da web, cada uma com botões de cores diferentes, e adaptou a frequência dessas versões com base nos cliques dos usuários.

As ferramentas utilizadas foram:

Python, Pandas, Numpy.
Flask para a implementação do servidor web e fornecimento de diferentes versões da página da web.
Selenium para automatizar a navegação na web e simular cliques de usuários.
Threading para executar o servidor web e a coleta de dados simultaneamente.
Git e Kedro.
Multi-Armed Bandit para otimização online.

Saiba Mais

Classificação da primeira reserva para novos usuários da Airbnb

Classificação dos novos usuários para a sua primeira reserva dado uma quantidade de países disponíveis, utilizando de técnicas para multi-classes e desbalanceamento.

As ferramentas utilizadas foram:

Git e Github.
Python, Pandas, Matplotlib e Seaborn.
VSCode.
Redes Neurais.

Saiba Mais

Construção de um programa de fidelidade com clusterização de clientes

Utilização de Python, Estatística e técnicas não-supervisionadas de Machine Learning para segmentar um grupo de clientes com base em suas características de performance de compra, a fim de selecionar grupos de clientes para formar um programa de fidelidade com o objetivo de aumentar a receita da empresa. O resultado da solução, caso fosse implementado, seria de aproximadamente R$ 15MM de dólares de receita anual.

As ferramentas utilizadas foram:

Git, Gitlab e Github.
Python, Pandas, Matplotlib e Seaborn.
Jupyter Notebook e VSCode.
K-Means, K-Medoids, Gaussian Mixture Model, Hierarquical Clustering, DBScan e HDBScan.
AWS Cloud (ECS, S3, Postgress, SQLite).
Metabase Visualization.

Saiba Mais

Cross-sell aplicado ao Rank to Learn

Projeto com objetivo de classificar os clientes para uma empresa de seguro de saúde que estuda ofertar seguros veiculares, a empresa precisa dentro de todos os clientes realizar ligações para os 20.000 clientes mais propensos a aceitar a oferta. O projeto classifica e ordena os clientes com maiores propensões e entrega a solução via google sheets, a implementação do projeto pode entregar um ganho financeiro de 10.34M para 27.54M, um aumento de 2,66x o valor.

As ferramentas utilizadas foram:

SQL, Dbeaver e Postgres.
Python, Pandas, Numpy, Matplotlib e Seaborn.
Git, Github, Gitlab.
Balanceamento de dados.
Rank-to-learn machine learning.
Flask API.
Heroku e Google Sheets.

Saiba Mais

Previsão de vendas utilizando Regressão

Projeto ponta a ponta com foco na previsão de vendas das próximas 6 semanas para as lojas do Grupo Rossmann com o objetivo de auxiliar nas escolhas de lojas que passarão por reformas com base na expectativa de vendas. O resultado do projeto permite previsões com margem de erro apróximada em 9%.

As ferramentas utilizadas foram:

Git, Gitlab e Github.
Python, Pandas, Numpy, Matplotlib e Seaborn.
Jupyter Notebook.
Algoritmos de regressão.
Heroku Cloud.
Streamlit e Telegram App.

Saiba Mais

Web Scraping para companhia de Jeans

Este projeto possui o foco em coletar dados referente a Jeans masculino com os objetivos de identificar o melhor preço, tipos de jeans e materiais utilizados e também para gerar Insights. O processo utiliza da técnica de Web scraping, limpeza de dados, armazenamento em Banco de dados SQLite e análise exploratório dos Dados. O projeto será entregue a companhia via acesso Webapp (Streamlit) permitindo acesso a relatórios e tabelas com as informações das análises.

As ferramentas utilizadas foram:

Git e Github.
Python, Pandas, Numpy, Matplotlib e Seaborn.
Jupyter Notebook.
SQLite, DBeaver.
Heroku Cloud.
Streamlit.

Saiba Mais

Análises e estratégias para compra e venda no mercado de renda variável

Análises do mercado de petróleo e gás, sua volatilidade, rendimentos e impactos de indicadores financeiros e aplicação de estratégias de compra e venda para composição de portfólio. O resultado compõe um retorno total de aproximadamente 19.90% para a melhor estratégia e um prazo de 1 ano e 10 meses. Também foi aplicado modelos de Time Series para previsão da volatividade das ações diárias com erro médio de 1,4%.

As ferramentas utilizadas foram:

Git, Github.
Python, Pandas, Matplotlib e Seaborn.
VSCode.
ARIMA Model.
Backtesting for strategies.

Saiba Mais

Identificação de imóveis para compra e revenda a fim de maximizar o lucro

Identificação de imóveis abaixo do preço médio de venda e definição do preço ideal de revenda, a partir de uma análise exploratória de dados em Python

As ferramentas utilizadas foram:

Python, Pandas, Numpy e Seaborn.
Anaconda, Pycharm e Jupyter Notebook.
Mapas interativos com Plotly e Folium.
Heroku Cloud.
Streamlit Python framework web.

Saiba Mais

Entre em contato

Sinta-se à vontade para entrar em contato: