Configurer un environnement de travail python 3 sur Ubuntu

Certaines librairies (telles que MLBox que j’apprécie particulièrement) ne disposant pas de version windows, j’ai décidé de créer une machine virtuelle à l’aide de VirtualBox dans sa version 5.2 pour installer Linux.J’ai opté pour Ubuntu 16.04.3 LTS.Voici la procédure pour installer le tout et configurer un environnement python 3 fonctionnel. 1 – Installation de VirtualBox Read More …

House prices : nouvelle solution

Suite à mon précédent post, j’ai passé quelques jours à travailler sur le problème de prédiction des prix de l’immobilier. J’ai pu améliorer mon score (~0.125) et gagner plus de 100 places dans le classement.Le code complet et largement commenté est fourni sous forme de notebook (voir plus bas), vous pouvez également le consulter sur Read More …

Compétition Kaggle : House Prices

Pour pratiquer mes compétences en régression, je m’attaque à la compétition Kaggle : “House prices: advanced regression techniques“.Le jeu est une liste de 79 variables (surfaces, prix, voisinage, état général, etc.) décrivant près de 2000 maisons vendues dans l’Iowa.Le challenge consiste à construire un modèle permettant de  prédire le prix des maisons à partir de Read More …

Cython : “unable to find vcvarsall.bat”

Vous avez prévu d’optimiser un peu votre code python en le compilant à l’aide de Cython ?Le tutoriel est assez simple, on prépare un petit “helloWorld.pyx” et un fichier “setup.py”, on ouvre une fenêtre de commande et là c’est le drame :Qu’est ce que ce fichier ? Comment résoudre le problème ?Tout d’abord je suggère Read More …

Régression polynomiale avec Scikit-learn

Un des outils les plus répandus en python pour effectuer des régressions est le module numpy.polynomial.polynomial.Mais si nous voulons jouer sur les coefficients avec les méthodes ridge ou lasso par exemple, pourquoi ne pas travailler directement avec Scikit-learn ?Je vais vous montrer dans ce petit tutoriel comment procéder à une régression polynomiale à l’aide de Read More …

Automatic estimation of magnetic domain wall propagation

Here is an image analysis script I have recently written on my spare time for my friends at the national science research center (CNRS). The short storyWe consider a magnetic nano-structure submitted to magnetic and/or electric field. Upon proper conditions, the magnetic state of the structure will evolve and switch from one polarity to the Read More …

Prédire les chances de survie au naufrage du Titanic

Cette compétition proposée sur kaggle, consiste à construire un modèle permettant de prédire les chances de survie lors du naufrage du Titanic.C’est un excellent premier exercice pour mettre en oeuvre ses talents de data scientist.Nous disposons d’une partie de la liste des passagers  et de certaines informations : a-t-il péri dans le naufrage, nom, age, Read More …

Prédiction des prix via une régression par les k plus proches voisins

Nous reprenons le jeu de données portant sur les transactions immobilières dans le conté de King, et nous allons établir un modèle d’apprentissage supervisé avec le package Graphlab create.Dans un premier temps, le modèle se contentera du plus proche voisin, puis nous augmenterons le nombre de voisins pour trouver un optimum. En n’oubliant pas qu’ici Read More …

Petit exercice “Open data” avec Python & Pandas

La plateforme de données ouvertes mises à disposition par le gouvernement (voir ici) est un formidable outil citoyen. C’est également une source de données avec laquelle jouer pour apprendre l’analyse avec Python. Pour un premier exercice, j’ai utilisé la plateforme “Opendata” de l’assemblée nationale avec laquelle j’ai imaginé le petit exercice suivant, en deux étapes.