Deep Learning - Prédiction de notes pour Commentaires

Projet Universitaire | Janvier - Mars 2024

• Python • NLP • Scikit-learn/Keras • Glove/Bert

Contexte :

Dans le cadre d'un projet universitaire mené entre janvier et mars 2024, nous avons entrepris une étude visant à prédire la polarité et les scores des commentaires laissés par les utilisateurs sur des livres. Cette tâche est cruciale pour les plateformes de vente en ligne telles qu'Amazon, Spotify, etc., car elle leur permet d'orienter leurs achats et de mieux servir leurs clients potentiels. Pour ce faire, nous avons utilisé des techniques de deep learning, en exploitant différentes représentations de texte telles que les mots simples, TF-IDF et les embeddings BERT, ainsi que des méthodes d'apprentissage variées.

Travail réalisé :

Nous avons commencé par effectuer une série d'analyses sur les données disponibles. Cela comprenait la distribution des livres sur le marché en fonction de leur genre, l'identification des mots les plus fréquents dans les revues obtenant un score supérieur à 5 à l'aide de WordClouds, la détermination des livres les plus commentés et les mieux notés, ainsi que l'exploration des genres où les lecteurs donnent des évaluations positives et négatives. Nous avons également examiné les auteurs les mieux notés avec 5 étoiles et ceux avec 1 étoile, ainsi que les corrélations potentielles entre l'éditeur, les auteurs et les scores de commentaire. Ensuite, nous avons abordé la prédiction de la polarité des commentaires. Pour ce faire, nous avons utilisé une approche simple où un commentaire était considéré comme positif si son score était supérieur à 3, et négatif sinon. Nous avons ensuite construit des modèles de prédiction des scores des commentaires en exploitant différentes représentations de texte et méthodes d'apprentissage, telles que les algorithmes classiques et les algorithmes de deep learning et du fine-tuning de LLMs existants.

Objectifs spécifiques :

Explorer et comparer différentes représentations de texte, notamment les mots simples, TF-IDF et les embeddings BERT, afin de déterminer celle qui fonctionne le mieux pour la prédiction des scores de commentaires.
Tester différentes méthodes d'apprentissage, y compris des algorithmes classiques et des algorithmes de deep learning, pour évaluer leur efficacité dans la prédiction des scores de commentaires.
Évaluer l'impact des différents champs de revue, tels que le résumé du commentaire et le texte complet du commentaire, sur la précision des modèles de prédiction.

Bilan :

En résumé, l’objectif de notre projet était de fournir des insights approfondis sur les commentaires des utilisateurs sur des livres, en utilisant des techniques de deep learning pour prédire leur polarité et leurs scores, tout en explorant diverses représentations de texte et méthodes d'apprentissage.

Intelligence Artificielle deep learning img