Analytics

Modelos de classificação de crédito - v2

Foto: Mídia do Wix No post anterior, a primeira versão dos modelos para definição de credit scoring foi feita usando 8 algoritmos de classificação de dados. Nesta versão, somente os algorimos com os três melhores resulatdos foram utilizados no processo de otimização com o RandomizedSearchCV: CatBoost, GradientBoosting e LightGBM. Para fins de experimentação, as otimizações foram realizadas, somente, em dois hiperparâmetros: número de estimadores (n_estimators) e taxa de apre

Modelos ML & DL

Fran Mateus

13 de fev. de 20251 min de leitura

Modelos de classificação de crédito - v1

Foto: Mídia do Wix O objetivo deste projeto foi a valiar qual modelo de machine learning, dentre oito algoritmos de aprendizagem supervisionada testados, apresentaria o melhor resultado na classificação de risco de crédito usando as métricas de Acurácia , F1 Score e Teste KS como referências. Na primeira versão do modelo, oito algoritmos foram utilizados: Árvore de Decisão e os Métodos Ensemble AdaBoost, Bagging (Bootstrappedd Aggregation), CatBoost, Extremely Randomized T

Modelos ML & DL

Fran Mateus

13 de fev. de 20252 min de leitura

Detecção de outliers com PyCaret

O objetivo deste experimento foi identificar outliers nos dados de acessos ao blog Viagem de Cinema , durante o período de 01/06/2022 até 30/04/2023, quando foram verificadas ocorrências de muitas dessas anomalias. Como base de comparação, o blog recebia 176 acessos diários, em média, mas chegou a ter um pico de 1.543 num único dia. Para detectar as anomalias, foram utilizados os seguintes algoritmos : Histogram-Based Outlier Score (HBOS), que identifica outliers através do

Analytics

Fran Mateus

6 de jan. de 20252 min de leitura

Sistema de recomendação de filmes com NLP

Baseado em similaridade por conteúdo e com mineração de textos Posteres: divulgação Objetivo: Criar um sistema de recomendação baseado em conteúdo, usando frameworks do scikit-learn para cálculos matemáticos e técnicas de Processamento de Linguagem Natural (NLP) para mineração dos textos. Metodologia aplicada: As etapas de mineração de dados seguiram o padrão CRISP-DM . Principais pacotes utilizados: Natural Language Toolkit (nltk): para limpeza e processamento ( stemmer

Modelos ML & DL

Fran Mateus

3 de jan. de 20253 min de leitura

Minerando "O sol também se levanta"

Aplicando Processamento de Linguagem Natural (PLN) no romance de Ernest Hemingway. Lloyd Arnold / Scribner´s Romances, cafés e touradas com Hemingway Ernest Hemingway (1899 – 1961) já tinha escrito muitas reportagens, alguns contos e a sátira "As torrentes da primavera" (1926), quando teve a sua primeira grande história de ficção publicada: o romance " O sol também se levanta " ( The sun also rises ), lançado ao público em outubro de 1926, pela editora Charles Scribner´s Sons

Modelos ML & DL

Fran Mateus

29 de set. de 20224 min de leitura

Minerando "O grande Gatsby"

Aplicando técnicas de Processamento de Linguagem Natural (PLN) no texto de F. Scott Fitzgerald. Fotos: Scribner´s / Shutterstock A obra-prima de Scott Fitzgerald Considerado um clássico da Literatura Mundial, " O grande Gatsby " ( The great Gatsby ) foi o terceiro romance do escritor americano Francis Scott Fitzgerald (1896-1940) e a sua obra-prima. Ele foi publicado em 10 de abril de 1925 pela editora Charles Scribner´s Sons, seguindo "Este lado do paraíso" (1920) e "Os belo

Modelos ML & DL

Fran Mateus

27 de set. de 20225 min de leitura

Modelagem de Série Temporal com ARIMA e MLP

O objetivo deste projeto foi analisar o padrão de acessos ao blog Viagem de cinema ao longo de 12 anos, período foi de 01/06/2010 até 31/05/2022 , e identificar qual o modelo funciona melhor para fazer predições com eles: o Auto-Regressive Integrated Moving Average (ARIMA) ou o Multilayer Perceptron (MLP). O blog Viagem de cinema publica conteúdo sobre locações de filmes e séries de tevê desde maio de 2010. Ele foi construído usando Blogger, uma plataforma de criação,

Modelos ML & DL

Fran Mateus

12 de jun. de 20221 min de leitura

Clusterização de filmes para criação de conteúdo sobre Londres

Com o objetivo de extrair insights de uma base de filmes para seleção e criação de conteúdo para um guia sobre locações em Londres, criei um modelo de Machine Learning que agrupasse os dados da melhor forma possível, usando algoritmos de clusterização. A base usada foi disponibilizada pelo portal IMDb no site do Kagle, que possui mais de 85 mil filmes, procedentes de países de todas as partes do mundo. Para o meu estudo, utilizei apenas 100 filmes produzidos, parcial ou total

Modelos ML & DL

Fran Mateus

27 de fev. de 20222 min de leitura