Suite à mon précédent post, j’ai passé quelques jours à travailler sur le problème de prédiction des prix de l’immobilier. J’ai pu améliorer mon score (~0.125) et gagner plus de 100 places dans le classement.
Le code complet et largement commenté est fourni sous forme de notebook (voir plus bas), vous pouvez également le consulter sur ma page kaggle.
Le score pourrait être amélioré en passant un peu de temps à jouer sur la préparation des données : quels paramètres devraient être supprimés, modifiés ? Peut-on créer d’autres variables ? (par exemple la surface totale du bien, nombre total de pièces, etc.).
J’aimerais y passer un peu plus de temps, mais je dois me faire violence et passer à autre chose pour ne pas perdre trop de temps à jouer avec des paramètres (loi de Pareto).
Bonne lecture.