Porto Seguro’s Safe Driver Prediction (Kaggle)

This competition was held on Kaggle from august to november 2017. Porto Seguro is a large brasilian insurance company that whishes to build a model that predicts the probability that a driver will initiate an auto insurance claim in the next year. The dataThe training data is a anonymized 113Mo .csv file with 59 features Read More …

MLBox : a short regression tutorial

I have recently discovered MLBox, an automated machine learning python library.Its main author, Axel Aronio de Romblay, promises : Fast reading and distributed data preprocessing/cleaning/formatting. Highly robust feature selection and leak detection. Accurate hyper-parameter optimization in high-dimensional space. State-of-the art predictive models for classification and regression (Deep Learning, Stacking, LightGBM,…). Prediction with models interpretation. Quite Read More …

Compétition Kaggle : House Prices

Pour pratiquer mes compétences en régression, je m’attaque à la compétition Kaggle : “House prices: advanced regression techniques“.Le jeu est une liste de 79 variables (surfaces, prix, voisinage, état général, etc.) décrivant près de 2000 maisons vendues dans l’Iowa.Le challenge consiste à construire un modèle permettant de  prédire le prix des maisons à partir de Read More …

Prédire les chances de survie au naufrage du Titanic

Cette compétition proposée sur kaggle, consiste à construire un modèle permettant de prédire les chances de survie lors du naufrage du Titanic.C’est un excellent premier exercice pour mettre en oeuvre ses talents de data scientist.Nous disposons d’une partie de la liste des passagers  et de certaines informations : a-t-il péri dans le naufrage, nom, age, Read More …

Prédiction des prix via une régression par les k plus proches voisins

Nous reprenons le jeu de données portant sur les transactions immobilières dans le conté de King, et nous allons établir un modèle d’apprentissage supervisé avec le package Graphlab create.Dans un premier temps, le modèle se contentera du plus proche voisin, puis nous augmenterons le nombre de voisins pour trouver un optimum. En n’oubliant pas qu’ici Read More …

Utilisation du lasso pour la sélection de paramètres

L’exercice présenté dans ce post est issu du cours sur la régression dans le parcours “Machine Learning” de l’université de Washington sur Coursera.Les données à notre disposition pour cet exercice sont celles des ventes de maisons dans le conté de King (état de Washington). Ce fichier contient les informations sur 21613 transactions immobilières et pour Read More …