# setwd('/media/alourme/GERMAIN/DESPEG/2015-16/S1/master/scoring/Rcode/Rcode1/')

library(Rmixmod) # la librairie Rmixmod 

data(finance) # les donnÃ©es finance contenues dans Rmixmod

names(finance) # pour connaÃ®tre le nom des variables disponibles : deux variables qualitatives (annÃ©e & santÃ©) & quatre ratios financiers (variables quantitatives)

traindata <- finance[finance$Year=='2002',-c(1,2)]  # donnÃ©es d'apprentissage : entreprises de 2002 dÃ©crites par les quatre ratios financiers
trainlabels <- finance[finance$Year=='2002',2] # la santÃ© des entreprises de 2002 (= le label). 

testdata <- finance[finance$Year=='2003',-c(1,2)] # donnÃ©es de test : entreprises de 2003 dÃ©crites par les quatre ratios financiers
testlabels <- finance[finance$Year=='2003',2] # la santÃ© des entreprises de 2003 (la variable qu'il faudrait retrouver grÃ¢ce au classifieur)

# 'Gaussian_pk_L_C' dÃ©signe le modÃ¨le gaussien homoscÃ©dastique
# 'Gaussian_pk_Lk_Ck' dÃ©signe le modÃ¨le gaussien hÃ©tÃ©roscÃ©dastique
# pour connaÃ®tre les autres modÃ¨les disponibles, consulter les deux articles [12] et [13] citÃ©s en rÃ©fÃ©rences bibliographiques

# statistiques des modÃ¨les homoscÃ©dastiques et hÃ©tÃ©roscÃ©dastiques
learn_homo <- mixmodLearn(traindata, 
                          knownLabels=trainlabels,
                          models = mixmodGaussianModel(listModels=c("Gaussian_pk_L_C")), # homoscÃ©dastique
                          criterion = c("BIC","CV"))

learn_hetero <- mixmodLearn(traindata, 
                            knownLabels=trainlabels,
                            models = mixmodGaussianModel(listModels=c("Gaussian_pk_Lk_Ck")), # hÃ©tÃ©roscÃ©dastique
                            criterion = c("BIC","CV"))

# comparaison selon BIC

cat('---- comparaison selon BIC -----','\n')

cat('BIC du modÃ¨le homoscedastique : ',learn_homo[8][3][1],'\n')
cat('BIC du modÃ¨le hÃ©tÃ©roscedastique : ',learn_hetero[8][3][1],'\n')

# comparaison selon l'erreur estimÃ©e par resubstitution

cat('---- comparaison selon l erreur de classement -----' ,'\n')

prediction_homo <- mixmodPredict ( data = testdata , classificationRule = learn_homo["bestResult"]) # classification des entreprises de 2002 selon le modÃ¨le homoscÃ©dastique
pred_homo <- as.matrix(prediction_homo[5])
confusion <- table(pred_homo,testlabels)
error_rate_homo_resubstitution=(confusion[1,2]+confusion[2,1])/sum(confusion) 
cat('erreur de classement du modÃ¨le homoscÃ©dastique (resubstitution) : ',error_rate_homo_resubstitution,'\n')

prediction_hetero <- mixmodPredict ( data = testdata , classificationRule = learn_hetero["bestResult"]) # classification des entreprises de 2002 selon le modÃ¨le hÃ©tÃ©roscÃ©dastique
pred_hetero <- as.matrix(prediction_hetero[5])
confusion <- table(pred_hetero,testlabels)
error_rate_hetero_resubstitution=(confusion[1,2]+confusion[2,1])/sum(confusion) 
cat('erreur de classement du modÃ¨le hÃ©tÃ©roscÃ©dastique (resubstitution) : ',error_rate_hetero_resubstitution,'\n')

# comparaison selon l'erreur estimÃ©e par VC

cat('VC du modÃ¨le homoscedastique : ',learn_homo[8][3][2],'\n')
cat('VC du modÃ¨le hÃ©tÃ©roscedastique : ',learn_hetero[8][3][2],'\n')

# comparaison selon l'erreur de classement des entreprises de 2003

cat('---- comparaison selon l erreur de classement des entreprises de 2003 -----','\n')

# classification des entreprises de 2003 selon le modÃ¨le homoscÃ©dastique
prediction_homo <- mixmodPredict ( data = testdata , classificationRule = learn_homo["bestResult"]) 
pred_homo <- as.matrix(prediction_homo[5])
confusion <- table(pred_homo,testlabels)
error_rate_homo=(confusion[1,2]+confusion[2,1])/sum(confusion) 
cat('erreur de classement des entreprises de 2003 par le modÃ¨le homoscÃ©dastique : ',error_rate_homo,'\n')

# classification des entreprises de 2003 selon le modÃ¨le hÃ©tÃ©roscÃ©dastique
prediction_hetero <- mixmodPredict ( data = testdata , classificationRule = learn_hetero["bestResult"]) 
pred_hetero <- as.matrix(prediction_hetero[5])
confusion <- table(pred_hetero,testlabels)
error_rate_hetero=(confusion[1,2]+confusion[2,1])/sum(confusion) 
cat('erreur de classement des entreprises de 2003 par le modÃ¨le hÃ©tÃ©roscÃ©dastique : ',error_rate_hetero,'\n')


##############################
# Courbes ROC & AUC
##############################

seuil=seq(from=0.9, to=0.1,by=-0.01) # le seuil se dÃ©place de 0,9 Ã  0,1 par centiÃ¨mes

tvp <- tfp <- NULL 

# Classifieur gaussien homoscÃ©dastique

for (i in 1:length(seuil)){
  
  fp=sum(testlabels=='healthy'&prediction_homo[6][,2]<seuil[i]) # nbre de faux positifs
  vp=sum(testlabels=='bankruptcy'&prediction_homo[6][,2]<seuil[i]) # nbre de vrais positifs
  fn=sum(testlabels=='bankruptcy'&prediction_homo[6][,2]>=seuil[i]) # nbre de faux nÃ©gatifs
  vn=sum(testlabels=='healthy'&prediction_homo[6][,2]>=seuil[i]) # nbre de vrais nÃ©gatifs
  
  tvp[i]=vp/(vp+fn) # taux de vrais positifs
  tfp[i]=fp/(fp+vn) # taux de faux positifs
}

plot(tfp,tvp,'l',col='blue', main='courbes ROC des classifieurs gaussiens',xlab='TFP',ylab='TVP') # courbe ROC du classifieur homoscÃ©dastique

library(flux)
AUC <- auc(tfp,tvp)
cat('AUC pour ROC-classifieur homoscédastique : ',AUC,'\n')

# Classifieur gaussien hÃ©tÃ©roscÃ©dastique

for (i in 1:length(seuil)){
  
  fp=sum(testlabels=='healthy'&prediction_hetero[6][,2]<seuil[i]) # nbre de faux positifs
  vp=sum(testlabels=='bankruptcy'&prediction_hetero[6][,2]<seuil[i]) # nbre de vrais positifs
  fn=sum(testlabels=='bankruptcy'&prediction_hetero[6][,2]>=seuil[i]) # nbre de faux nÃ©gatifs
  vn=sum(testlabels=='healthy'&prediction_hetero[6][,2]>=seuil[i]) # nbre de vrais nÃ©gatifs
  
  tvp[i]=vp/(vp+fn) # taux de vrais positifs
  tfp[i]=fp/(fp+vn) # taux de faux positifs
}

points(tfp,tvp,'l',col='red') # courbe ROC du classifieur hÃ©tÃ©roscÃ©dastique

AUC <- auc(tfp,tvp)
cat('AUC pour ROC-classifieur hétéroscédastique : ',AUC,'\n')

legend('bottomright',
       c('homoscÃ©dastique','hÃ©tÃ©roscÃ©dastique'),
       lty=c(1,1),
       col=c('blue','red')
)