Attention

Le programme des formations et les informations qui s'y rapportent sont présentés à titre purement indicatif et n'ont pas de valeur contractuelle.

Volumes horaires

Total : 30
nb heures CM : 30

Extraction de connaissances & fouille de données-Data mining

Type : Obligatoire
Crédits ECTS : 3

Pré-requis

Jambu M. Introduction au data mining,  Eyrolles 1999
Lefébure R, Venturini G. Data mining,  Eyrolles 2001

Objectifs

L'extraction automatique de connaissances (ECD - Knowledge Discovery in Data Bases : KDD) à partir de données peut  être utilisée par exemple pour établir le profil d'un client, pour aider au diagnostic ou plus généralement pour l'aide à la décision. Après une étape de pré-traitement des données, le processus comporte une phase de fouille de données (Data Mining) dont l'objectif est de rechercher des informations nouvelles ou cachées à partir des données en faisant appel à des techniques issues de domaines divers tels que les statistiques ou l'intelligence artificielle. Le but de cet enseignement est de présenter le processus d'extraction automatique de connaissance ainsi que quelques algorithmes classiques de fouille de données et de les appliquer sur des problèmes concrets.

Plan :
I- Introduction à l'ECD 
Définitions
Data Mining
Processus d 'ECD

II- Méthodes de fouille de données
Méthodes factorielles
Détection automatique de classes  (K-moyennes - méthodes d'agglomération)
Les règles d'association
Les arbres de décision (Cart, C5)
Réseaux neuronaux

Supports logiciels utilisés : Statistica - SPSS - Clémentine
Intervenants : Richard BARON, François  JACQUENET, Christine LARGERON

Bibliographie : 

Agrawal R, Srikant R. ( 1994) Fast algorithm for mining association rules in large databases In Proceedings  International Conference on Vrery Large Data Base ( VLDB'94) Santiago Chile p 487-499
Ardilly, P. (1994) ,Les techniques de sondage.  Technip.
Berry M., Linoff G. (1997) Data mining : techniques appliquées au marketing et aux services clients,  Intereditions Masson
Bishop C.  (2006) Patten recognition and machine learning, Springer 702 p
Bourret, P., J. Reggia, and M. Samuelides (1991). Réseaux neuronaux.  Teknea
Breiman, L., J. Friedman, R. Olshen, and C. Stone (1993).     Classification and regression trees. New York: Chapman and Hall
Celeux, G., E. Diday, G. Govaert, Y. Lechevallier, and H. Ralambondrainy (1989).  Classification automatique des données. Dunod. 
Cornuejols A and Miclet L Apprentissage artificiel : Concept et algorithmes Eyrolles 2002
Droesbeke, J., B. Fichet, and P. Tassi (1992). Modèles pour l'Analyse des Données Multidimensionnelles. Economica.
Efron, B. (1982).The Jackknife, the Bootstrap and other Resampling Methods. SIAM.
Everitt, B. and G. Dunn (1991).Applied Multivariate Data Analysis. Edward Arnold.
Fayyad U.M., Piatetsky-Shapiro G., Smyth P., Uthurusamy R.(Eds) (1996) Advances in Knowledge Discovery and Data Mining Cambridge, MIT Press
Fayyad, U. M. ( 1997) Knowledge Discovery in Databases
Gordon A.  (1999) Classification , Chapman Hall
Han J, Kamber M.(2001)  Data mining: Concepts and techniques,   Morgan Kaufman
Hastie T, Tibshirani R., Friedman J. The elements of statistical learning Data mining, Springer 2001
Heckerman D ( 1996) Bayesian networks for knowledge discovery in  Advances in Knowledge Discovery and Data Mining, pages 273--305, Cambridge, MA, 1996. MIT Press.
 Jambu M. (1999)Introduction au data mining,  Eyrolles
Kimball R., (1997) Entrepôts de données , International Thomson Publishing,
Larose D. T.  (adaptation française T. Vallaud): Des données à la connaissance² : Une introduction au data-mining (1Cédérom), Vuibert, 2005
Lefébure R, Venturini G.(2001)  Data mining,  Eyrolles
Mannila H., Toivonen H., Verkamo A.I. ( 1994) Efficient algorithm for discovering association rules In Proceeding AAAI'94 Workshop Knowledge Discovery in Database ( KDD'94) Seattle WA pp 181-192
Mitchell.T.  Machine Learning. McGraw-Hill, 1997
Naïm P. (2001) Data mining pour le Web. Paris, Eyrolles
Quinlan. J . R.  C4.5: Programs for Machine Learning. Morgan Kaufmann, San Mateo, CA, 1993
Sandoval V, L'informatique décisionnelle, 126, 1997, Hermès
Pang-Ning Tan, Michael Steinbach and Vipin Kumar, Introduction to Data Mining (2005), ISBN 0-321-32136-7 (companion book site)
Thiria, S., Y. Lechevallier, O. Gascuel, and S. Canu (1997).   Statistique et méthodes neuronales.   Dunod.
Thearling K, An Introduction to Data Mining (voir également le tutorial correspondant en ligne)
Tufféry S, Data Mining et Statistique Décisionnelle, Technip, nouvelle édition revue et enrichie, juin 2007
Tufféry S, The Data mining Page, mars 2007 : cours au format pdf
Tufféry S. (2002) Data mining et scoring Paris, Dunod
Witten I. nd Eibe Frank, Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann, 2005. Site web
Witten I. and Eibe Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations (2000), ISBN 1-55860-552-5, (voir aussi Free Weka Software)
Zang C. (2002) Association rule mining. Berlin. Springer Verlag.
Zantinge D., Adraiaans P. (1996) Data mining , Addison- Wesley
Zighed D, Rakotomalala R. (2000) Graphes d'induction,  Hermès

Cours ou ouvrages en ligne
Introduction to Data Mining and Knowledge Discovery, Third Edition
http://www.twocrows.com/booklet.htm
Cours de Gilleron et Tommassi
http://www.grappa.univ-lille3.fr/polys/fouille/index.html
Cours de Bengio
http://www.iro.umontreal.ca/~pift6266/A03/
Cours de Rico Rakotomalala
http://chirouble.univ-lyon2/~ricco/data-mining
http://data.mining.free.fr/course12.html
http://www.thearling.com/books.htm
http://www.web-datamining.net/actualites/biblio.asp

Contrôles des connaissances

Les étudiants devront choisir une problématique et un jeu de données se rapportant à cette question, qu'ils devront analyser à l'aide d'une ou plusieurs méthodes d'ECD vues en cours.  Ils devront rédiger un dossier présentant le problème, les données, les résultats obtenus et l'analyse qu'ils en auront faite. Ce travail fera l'objet d'une présentation orale lors de séances collectives.

L'évaluation de ce cours portera sur le dossier ainsi que sur la présentation orale qui en sera faite devant les autres étudiants.

mise à jour le 7 mars 2008