Quelques bouts de codes Pyspark

Avec mon embauche en tant que data analyst chez CS depuis février 2018, le rythme des publications sur ce blog a fortement diminué, de même que mon temps libre pour me consacrer à des competitions kaggle.Pyspark est désormais mon quotidien 🙂Pour capitaliser l’expérience acquise, j’ai crée un git dans lequel je rajoute de temps à Read More …

Configurer un environnement python sous windows 10

Dans un précédent billet, j’ai décrit comment confiturer un environnement python sous Ubuntu.Sous windows 10, les étapes d’installation sont exactement les mêmes, mais j’ai eu une petite surprise, puisque l’arborescence du dossier contenant l’environnement n’est pas la même: il n’y a pas de dossier “bin”.Heureusement tout est décrit dans la documentation.Sous linux :  \ENV_NAME\bin\Sous windows Read More …

Porto Seguro’s Safe Driver Prediction (Kaggle)

This competition was held on Kaggle from august to november 2017. Porto Seguro is a large brasilian insurance company that whishes to build a model that predicts the probability that a driver will initiate an auto insurance claim in the next year. The dataThe training data is a anonymized 113Mo .csv file with 59 features Read More …

Configurer un environnement de travail python 3 sur Ubuntu

Certaines librairies (telles que MLBox que j’apprécie particulièrement) ne disposant pas de version windows, j’ai décidé de créer une machine virtuelle à l’aide de VirtualBox dans sa version 5.2 pour installer Linux.J’ai opté pour Ubuntu 16.04.3 LTS.Voici la procédure pour installer le tout et configurer un environnement python 3 fonctionnel. 1 – Installation de VirtualBox Read More …

Tensorflow classification example : Titanic competition

After having completed the first three lectures in Andrew Ng’s excellent deep learning lecture on coursera, I decided to practice my new skills using kaggle competitions.For a first example, I’ll use the Titanic dataset again.The data has already been analysed and processed (log, binning, etc.) in a previous article, so I’ll skip this part. import Read More …

MLBox : a short regression tutorial

I have recently discovered MLBox, an automated machine learning python library.Its main author, Axel Aronio de Romblay, promises : Fast reading and distributed data preprocessing/cleaning/formatting. Highly robust feature selection and leak detection. Accurate hyper-parameter optimization in high-dimensional space. State-of-the art predictive models for classification and regression (Deep Learning, Stacking, LightGBM,…). Prediction with models interpretation. Quite Read More …

House prices : nouvelle solution

Suite à mon précédent post, j’ai passé quelques jours à travailler sur le problème de prédiction des prix de l’immobilier. J’ai pu améliorer mon score (~0.125) et gagner plus de 100 places dans le classement.Le code complet et largement commenté est fourni sous forme de notebook (voir plus bas), vous pouvez également le consulter sur Read More …

Compétition Kaggle : House Prices

Pour pratiquer mes compétences en régression, je m’attaque à la compétition Kaggle : “House prices: advanced regression techniques“.Le jeu est une liste de 79 variables (surfaces, prix, voisinage, état général, etc.) décrivant près de 2000 maisons vendues dans l’Iowa.Le challenge consiste à construire un modèle permettant de  prédire le prix des maisons à partir de Read More …

Itertools pour simplifier les calculs scientifiques

En sciences nous sommes régulièrement amenés à résoudre des calculs pour l’ensemble des combinaisons de plusieurs paramètres: température, pression, volume, dimensions, tension, champ magnétique, etc.Par exemple, si je considère un ensemble d’échantillons de forme cylindrique et de diamètre et de hauteur différentes, je peux calculer toutes les valeurs de volume possibles en bouclant sur le Read More …