Stats Under the Stars 4
Sus4 L'azienda Findomestic Banca/S.R.l. (denominata Findomestic), al fine di risolvere un problema di dec...
2018
21/06
 
  Partecipanti 109 Sottomissioni 992  
 

L’azienda Findomestic Banca/S.R.l. (denominata Findomestic), al fine di risolvere un problema di decisione sull’erogazione dei finanziamenti, ha chiesto alla nostra società di organizzare una gara nella quale si sfideranno diversi team. Fate parte del team che, accettando la sfida, è chiamato a proporre un modello statistico che consenta di predire il comportamento dei clienti. Il vostro team risponde che è in grado di costruire un modello statistico molto affidabile, ma all’interno della Findomestic ci sono delle giurie scettiche verso l’approccio statistico per cui verrete sottoposti a una “Proof of Concept”. Al termine della competizione l’azienda deciderà se affidarvi o meno l’incarico.

L’azienda basa la “Proof of Concept” su una misura oggettiva che
tiene conto della gravità del vostro errore. Gli errori sono rappresentati nella seguente matrice di perdita:

Previsto
Vero Regolare Contenzioso Recupero
Regolare 0 50 10
Contenzioso 4000 0 30
Recupero 10 20 0

Indichiamo con LM la matrice di perdita e con CM la matrice di confusione che ha per riga la vera composizione e per colonna quella stimata dal modello. La misura di errore è ottenuta dalla seguente formula:

Errore = 1/n Σ r=13Σ c=13 LMijCMij

dove n è la numerosità del campione.

L’errore è trasformato secondo la seguente formula, al fine di riportarne il campo di esistenza in [0,100]:


ErroreNorm = Errore / maxErrore X 100

dove maxErrore indica il massimo punteggio negativo che si sarebbe potuto ottenere data la composizione del vero vettore della variabile target.

Ogni submission consiste in un vettore che contiene le vostre previsioni
per le nuove transazioni. Noi utilizzeremo una parte di queste – a voi non
nota e sempre la medesima – per calcolare il punteggio parziale come descritto
nella Sessione Valutazione. La parte rimanente verrà invece utilizzata per calcolare il
punteggio finale. Ad ogni nuova previsione inviata otterrai un nuovo punteggio
parziale che sostituirà il primo.

È utile sottolineare quanto segue:

• Le classifiche sono fatte per squadra, con l’ultima submission si intende
l’ultima di un qualsiasi membro della squadra.
• Non c’è un limite al numero di submission che ogni membro può fare.
• Al termine della competizione, solo l’ultima submission sarà considerata
per il calcolo del punteggio finale (sottomettete quindi quella che reputate
migliore!).
• Il punteggio finale è calcolato come in Sezione Valutazione usando solo le predizioni che
NON sono state usate nel calcolo del punteggio parziale.
Ricordate, infine, che è necessario che il capitano della squadra invii entro le
ore 6:30 l’elaborato che descrive il metodo usato nella (ultima, definitiva) previsione presentata.
L’elaborato deve rispettare le norme descritte nel Vademecum ed deve essere inviato via mail all’indirizzo sus4@unipa.it, entro le 6:30. La commissione darà conferma dell’avvenuta ricezione del report.

Sottoponete al sistema un file di testo con una sola colonna e 26521 righe. Ogni riga contenga il valore di ClientStatus corrispondente alla osservazione del dataset di Verifica.
Il file sarà quindi del tipo:
0
2
1
1
0
2
2
0
0

Si veda anche il file EsempioSubmission.txt alla pagina Datasets

Il dataset fornito dall’azienda Findomestic è composto da circa 67.000 richieste di finanziamento approvate. Ogni record del dataset contiene alcune caratteristiche rilevate al momento della richiesta. Nel file pdf scaricabile in fondo a questa pagina si descrivono nel dettaglio 30 variabili raggruppate in aree socio-demografiche, equipaggiamento del cliente, storico del cliente e comportamento del cliente.
Nello stesso file è riportata anche la codifica utilizzata per le variabili qualitative.

La variabile target Comportamento dei clienti denotata con ClientStatus, è osservata dopo 24 mesi dalla concessione del finanziamento, e assume le modalità seguenti elencate per ordine decrescente di gravità:
• cliente con contenzioso,
• cliente in recupero,
• cliente regolare.

Il vostro obiettivo è quello di utilizzare metodi statistici che consentano di predire il comportamento dei clienti in funzione dell’opportuno sottoinsieme, proprio o improprio, delle variabili rilevate.

Per questa ragione l’azienda vi consegna due file di dati:
• un dataset, indicato con il nome di “training.csv”, in cui sono presenti 40000 clienti ai quali è stato concesso il finanziamento.
• Un dataset, indicato con “test.csv”, in cui sono presenti le caratteristiche di 26521 clienti ai quali è stato concesso il finanziamento ma che non presenta la variabile target “ClientStatus”.




Dataset Stima dataset_stima.zip
900 KB
Dataset Verifica dataset_verifica.zip
700 KB
EsempioSubmission.txt EsempioSubmission.txt
80 KB
Istruzioni dettagliate SUS2018.pdf
500 KB
Per partecipare bisogna prima autenticarsi
# Nome Punteggio Prove Ultima prova
1 Team: Completely Random Methods FINALE 5.77% 5 20.06.2018
00:49
2 Team: Following The Signal FINALE 5.81% 69 20.06.2018
05:14
3 Team: Karalis FINALE 5.82% 13 20.06.2018
02:50
4 Team: Scooby Data Doo FINALE 5.82% 76 20.06.2018
05:14
5 Team: The Markovians FINALE 5.82% 38 20.06.2018
04:00
6 Team: Bauli FINALE 5.83% 58 20.06.2018
05:14
7 Team: Risk Averse Statisticians (RAS) FINALE 6.24% 106 20.06.2018
04:59
8 Team: Il Magico Trio FINALE 6.43% 125 20.06.2018
05:16
9 Team: Random Walkers FINALE 7.42% 26 20.06.2018
04:31
10 Team: Bayesian Love FINALE 11.20% 4 20.06.2018
04:03
11 Team: Sudata FINALE 12.66% 52 20.06.2018
05:06
12 Team: Lasso_nella_manica FINALE 14.45% 60 20.06.2018
04:45
13 Team: i.i.d.ioti FINALE 17.30% 25 20.06.2018
05:19
14 Team: Brutti's Army FINALE 21.72% 25 20.06.2018
05:20
15 Team: Salerneuralnet FINALE 24.16% 45 20.06.2018
04:26
16 Team: Happy Fit FINALE 24.32% 97 20.06.2018
05:16
17 Team: I Fuori Controllo FINALE 27.80% 21 20.06.2018
05:05
18 Team: Databusters FINALE 28.90% 29 20.06.2018
04:51
19 Team: Tutti Brutti FINALE 30.17% 18 20.06.2018
05:18
20 Team: Più Potenti Del Continuo FINALE 31.77% 9 20.06.2018
03:42
21 Team: Big Datass FINALE 51.37% 18 20.06.2018
04:19
22 Team: Stimateci!!! FINALE 60.08% 22 20.06.2018
04:54
23 Team: Brootstrap FINALE 69.01% 13 20.06.2018
05:11
24 Team: Benchmark FINALE 73.06% 14 20.06.2018
01:18
25 Team: Iiwii FINALE 73.09% 2 20.06.2018
04:52
26 Team: Who Let The Dags Out FINALE 73.65% 19 20.06.2018
05:25
Team Membri
Stimateci!!! Stimateci!!! 4
Benchmark Benchmark 1
Iiwii Iiwii 2
Lasso_nella_manica Lasso_nella_manica 5
I Fuori Controllo I Fuori Controllo 5
Sudata Sudata 2
Più Potenti Del Continuo Più Potenti Del Continuo 5
Risk Averse Statisticians (RAS) Risk Averse Statisticians (RAS) 5
Databusters Databusters 3
Brutti's Army Brutti's Army 5
Bayesian Love Bayesian Love 2
Karalis Karalis 2
Following The Signal Following The Signal 3
Scooby Data Doo Scooby Data Doo 5
Completely Random Methods Completely Random Methods 5
Il Magico Trio Il Magico Trio 3
Salerneuralnet Salerneuralnet 5
Tutti Brutti Tutti Brutti 5
Bauli Bauli 4
Brootstrap Brootstrap 3
Random Walkers Random Walkers 5
Who Let The Dags Out Who Let The Dags Out 5
The Markovians The Markovians 4
i.i.d.ioti i.i.d.ioti 5
Big Datass Big Datass 3
Happy Fit Happy Fit 4