top of page


Modelos de classificação de crédito - v2
Foto: Mídia do Wix No post anterior, a primeira versão dos modelos para definição de credit scoring foi feita usando 8 algoritmos de classificação de dados. Nesta versão, somente os algorimos com os três melhores resulatdos foram utilizados no processo de otimização com o RandomizedSearchCV: CatBoost, GradientBoosting e LightGBM. Para fins de experimentação, as otimizações foram realizadas, somente, em dois hiperparâmetros: número de estimadores (n_estimators) e taxa de apre
Fran Mateus
13 de fev. de 20251 min de leitura


Modelos de classificação de crédito - v1
Foto: Mídia do Wix O objetivo deste projeto foi a valiar qual modelo de machine learning, dentre oito algoritmos de aprendizagem supervisionada testados, apresentaria o melhor resultado na classificação de risco de crédito usando as métricas de Acurácia , F1 Score e Teste KS como referências. Na primeira versão do modelo, oito algoritmos foram utilizados: Árvore de Decisão e os Métodos Ensemble AdaBoost, Bagging (Bootstrappedd Aggregation), CatBoost, Extremely Randomized T
Fran Mateus
13 de fev. de 20252 min de leitura


Detecção de outliers com PyCaret
O objetivo deste experimento foi identificar outliers nos dados de acessos ao blog Viagem de Cinema , durante o período de 01/06/2022 até 30/04/2023, quando foram verificadas ocorrências de muitas dessas anomalias. Como base de comparação, o blog recebia 176 acessos diários, em média, mas chegou a ter um pico de 1.543 num único dia. Para detectar as anomalias, foram utilizados os seguintes algoritmos : Histogram-Based Outlier Score (HBOS), que identifica outliers através do
Fran Mateus
6 de jan. de 20252 min de leitura


Sistema de recomendação de filmes com NLP
Baseado em similaridade por conteúdo e com mineração de textos Posteres: divulgação Objetivo: Criar um sistema de recomendação baseado em conteúdo, usando frameworks do scikit-learn para cálculos matemáticos e técnicas de Processamento de Linguagem Natural (NLP) para mineração dos textos. Metodologia aplicada: As etapas de mineração de dados seguiram o padrão CRISP-DM . Principais pacotes utilizados: Natural Language Toolkit (nltk): para limpeza e processamento ( stemmer
Fran Mateus
3 de jan. de 20253 min de leitura


Minerando "O sol também se levanta"
Aplicando Processamento de Linguagem Natural (PLN) no romance de Ernest Hemingway. Lloyd Arnold / Scribner´s Romances, cafés e touradas com Hemingway Ernest Hemingway (1899 – 1961) já tinha escrito muitas reportagens, alguns contos e a sátira "As torrentes da primavera" (1926), quando teve a sua primeira grande história de ficção publicada: o romance " O sol também se levanta " ( The sun also rises ), lançado ao público em outubro de 1926, pela editora Charles Scribner´s Sons
Fran Mateus
29 de set. de 20224 min de leitura


Minerando "O grande Gatsby"
Aplicando técnicas de Processamento de Linguagem Natural (PLN) no texto de F. Scott Fitzgerald. Fotos: Scribner´s / Shutterstock A obra-prima de Scott Fitzgerald Considerado um clássico da Literatura Mundial, " O grande Gatsby " ( The great Gatsby ) foi o terceiro romance do escritor americano Francis Scott Fitzgerald (1896-1940) e a sua obra-prima. Ele foi publicado em 10 de abril de 1925 pela editora Charles Scribner´s Sons, seguindo "Este lado do paraíso" (1920) e "Os belo
Fran Mateus
27 de set. de 20225 min de leitura


Modelagem de Série Temporal com ARIMA e MLP
O objetivo deste projeto foi analisar o padrão de acessos ao blog Viagem de cinema ao longo de 12 anos, período foi de 01/06/2010 até 31/05/2022 , e identificar qual o modelo funciona melhor para fazer predições com eles: o Auto-Regressive Integrated Moving Average (ARIMA) ou o Multilayer Perceptron (MLP). O blog Viagem de cinema publica conteúdo sobre locações de filmes e séries de tevê desde maio de 2010. Ele foi construído usando Blogger, uma plataforma de criação,
Fran Mateus
12 de jun. de 20221 min de leitura


Clusterização de filmes para criação de conteúdo sobre Londres
Com o objetivo de extrair insights de uma base de filmes para seleção e criação de conteúdo para um guia sobre locações em Londres, criei um modelo de Machine Learning que agrupasse os dados da melhor forma possível, usando algoritmos de clusterização. A base usada foi disponibilizada pelo portal IMDb no site do Kagle, que possui mais de 85 mil filmes, procedentes de países de todas as partes do mundo. Para o meu estudo, utilizei apenas 100 filmes produzidos, parcial ou total
Fran Mateus
27 de fev. de 20222 min de leitura
bottom of page