MLBox : a short regression tutorial

I have recently discovered MLBox, an automated machine learning python library.Its main author, Axel Aronio de Romblay, promises : Fast reading and distributed data preprocessing/cleaning/formatting. Highly robust feature selection and leak detection. Accurate hyper-parameter optimization in high-dimensional space. State-of-the art predictive models for classification and regression (Deep Learning, Stacking, LightGBM,…). Prediction with models interpretation. Quite Read More …

House prices : nouvelle solution

Suite à mon précédent post, j’ai passé quelques jours à travailler sur le problème de prédiction des prix de l’immobilier. J’ai pu améliorer mon score (~0.125) et gagner plus de 100 places dans le classement.Le code complet et largement commenté est fourni sous forme de notebook (voir plus bas), vous pouvez également le consulter sur Read More …

Compétition Kaggle : House Prices

Pour pratiquer mes compétences en régression, je m’attaque à la compétition Kaggle : “House prices: advanced regression techniques“.Le jeu est une liste de 79 variables (surfaces, prix, voisinage, état général, etc.) décrivant près de 2000 maisons vendues dans l’Iowa.Le challenge consiste à construire un modèle permettant de  prédire le prix des maisons à partir de Read More …

Régression polynomiale avec Scikit-learn

Un des outils les plus répandus en python pour effectuer des régressions est le module numpy.polynomial.polynomial.Mais si nous voulons jouer sur les coefficients avec les méthodes ridge ou lasso par exemple, pourquoi ne pas travailler directement avec Scikit-learn ?Je vais vous montrer dans ce petit tutoriel comment procéder à une régression polynomiale à l’aide de Read More …

Prédiction des prix via une régression par les k plus proches voisins

Nous reprenons le jeu de données portant sur les transactions immobilières dans le conté de King, et nous allons établir un modèle d’apprentissage supervisé avec le package Graphlab create.Dans un premier temps, le modèle se contentera du plus proche voisin, puis nous augmenterons le nombre de voisins pour trouver un optimum. En n’oubliant pas qu’ici Read More …

Utilisation du lasso pour la sélection de paramètres

L’exercice présenté dans ce post est issu du cours sur la régression dans le parcours “Machine Learning” de l’université de Washington sur Coursera.Les données à notre disposition pour cet exercice sont celles des ventes de maisons dans le conté de King (état de Washington). Ce fichier contient les informations sur 21613 transactions immobilières et pour Read More …