Stats Under the Stars
Logovaloritaliatrasparente100x77 Wine not?
Valutazione della qualità sensoriale dei Vini
(dataset concesso da www.valoritalia.it)...
2015
12/12
 
  Partecipanti 103 Sottomissioni 524  
 

Wine not?

Valutazione della qualità sensoriale dei Vini
(dataset concesso da www.valoritalia.it)


Questa è la competizione organizzata per l’evento Stats Under the Stars svoltosi nella notte tra 8 e 9 settembre 2015 a Padova – Caffè Pedrocchi, Sala Rossini.
__________________________________________________________________________________

VALORITALIA è una società leader in Italia nelle attività di controllo e certificazione della qualità di vini DO e IG e sui vini da tavola con indicazione del vitigno e/o dell’annata. Controlla più del 70% del vino italiano a denominazione ed è dislocata sul territorio nazionale con 35 sedi. Nello specifico ogni riga del vostro dataset corrisponde ad un vino per il quale tre macro categorie di variabili, descritte qui di seguito, sono disponibili.

In particolare ogni riga del vostro dataset corrisponde ad una valutazione effettuata da VALORITALIA su un certo prodotto vinicolo per il quale tre macro categorie di informazioni, descritte qui di seguito, sono disponibili.

Utilizzando il vostro modello stimato sul dataset dataset_vino_stima.csv e i regressori per i prodotti associati ai nuovi assaggi, dovrete prevedere l’idoneità (da codificare come 0) o la non idoneità (da codificare come 1) per ciascuna delle 3696 nuove valutazioni sensoriali. La bontà della vostra classificazione verrà valutata da noi secondo la vostra capacità di rendere minimo il seguente errore:

Errore = (#falsi IDONEO ∗ 60 + #falsi RIVEDIBILE)

Dove #falsi IDONEO è il numero di valutazioni che voi classificate come IDONEO ma che in realtà sono rivedibili, mentre #falsi RIVEDIBILE è il numero di valutazioni che voi classificate come RIVEDIBILE ma che in realtà sono idonee.

Minore è l’errore, migliore la qualità della previsione.

Durante la nottata avrete anche la possibilità di valutare la performance del vostro modello attraverso un Punteggio Parziale: si tratta dell’errore di previsione precedentemente descritto, calcolato solo su una parte – a voi non nota – delle 3696 righe del dataset di predizione. Ad ogni nuova submission otterrete un nuovo punteggio parziale (calcolato sullo stesso dataset parziale). Non c’è limite al numero submissions che potete effettuare.

Dopo la chiusura della competizione, il sistema calcolerà il Punteggio Finale sulla base dell’ultimo vettore di previsione sottomesso da ogni squadra. Questo errore è calcolato usando tutte e sole le osservazioni che non hanno partecipato al calcolo del punteggio parziale e le vostre corrispondenti previsioni.

• Le classifiche sono fatte per squadra, con ’ultima submission’ si intende l’ultima di un qualsiasi membro della squadra.
• Non c’è un limite al numero di submission che è ogni membro può fare.
• È fatto espresso divieto di inviare previsioni di soli zeri (0) o uni (1).
• Al termine della competizione, solo l’ultima submission sarà considerata per il calcolo del punteggio finale (sottometete quindi quella che reputate migliore!).
• Il punteggio finale è calcolato come nella pagina Valutazione usando solo le predizioni che NON sono state usate nel calcolo del punteggio parziale.

Inoltre, è necessario che il capitano della squadra invii entro le ore 7.30 l’elaborato che descrive il metodo usato nella (ultima, definitiva) previsione presentata. L’elaborato deve rispattare le norme descritte nel regolamento ed inviato via mail all’indirizzo sus@stat.unipd.it.

Formato del file per la submission

File di testo con una previsione in ogni riga, 131560 righe in tutto (pari alle righe di previsione).
Le previsioni di Risposta pari a:
• ’FRODE’ sono indicate con un 1.
• ’NON FRODE’ sono indicate con uno 0.
Il file sarà quindi del tipo:
1
0
1
0
1
Si veda anche il file ProvaSubmission.txt incluso nel file sus_data.zip

Variabile Risposta

La variabile Risposta corrisponde all’idoneità organolettica del prodotto e ci dice se il vino valutato è risultato idoneo (IDONEO) o meno (RIVEDIBILE) all’analisi sensoriale. Il test di analisi sensoriale procede nel seguente modo: per un dato vino sotto esame, ogni giudice in un panel di cinque esperti fornisce tre giudizi in merito a odore, vista e gusto. I quindici giudizi vengono poi riassunti in un giudizio finale di idoneità sensoriale (IDONEO o RIVEDIBILE) che rappresenta la vostra variabile di interesse.

Predittori

Variabili risultanti dalle analisi chimiche

Il prodotto vinicolo sottoposto alla valutazione organolettica è anche sottoposto ad analisi chimiche che forniscono le seguenti variabili:

• Titolo_Alcolometrico_Effettivo: Il titolo alcolometrico volumico è uguale al numero di litri di etanolo contenuti in 100 litri di vino. Detti volumi si intendono misurati alla temperatura di 20 gradi centrigradi. Il simbolo è % vol.
• Titolo_AlcolometricoTotale: è dato dalla somma del grado alcolico (alcool effettivo) e del grado alcolico potenziale (zuccheri residui moltiplicati per 0.06). La concentrazione viene espressa in grammi litri di alcool etilico contenuti in 100 litri di vino e si indica con il simbolo % vol.
• Zuccheri_Riduttori: quantità di zuccheri (principalmente Glucosio e Fruttosio) associata al vino in esame. Viene espressa in grammi per litro.
• Acidita_Totale: misura la somma delle acidità titolabili quando si neutralizza (pH=7) perfettamente il mosto o il vino con una soluzione alcalina titolata. Viene espressa in grammi di acido tartarico per litro. Tiene conto sia di acidi fissi (tartarico, malico, succinico, lattico, citrico) ed acidi volatili (che possono essere allontanati per ebollizione, come l’acido acetico).
• Acidita_Volatile: misura la frazione degli acidi grassi appartenenti alla serie acetica (acetico, formico, propionico, butirrico) che si trovano nel vino in esame sia allo stato libero che allo stato salificato; in tale determinazione occorre escludere l’acido carbonico (allontanato per agitazione prima dell’analisi) e l’acido solforoso (che si può determinare a parte e poi sottrarre dal dato complessivo). Si misura in grammi di acido acetico per litro.
• Estratto_Secco_Totale: misura l’insieme delle sostanze non volatili del vino in esame (acidi fissi, sali, polifenoli, glicerina, pectine, zuccheri ecc.), cioè da quelle sostanze che restano dopo aver allontanato dal vino tutte le sostanze volatili (acqua, alcol e acido acetico . . .) mediante riscaldamento a 100 gradi. Si misura in grammi per litro.
• Estratto_Non_Riduttore: è l’estratto secco totale meno gli zuccheri riduttori presenti nel vino in esame.
• Anidride_Solforosa: quantità totale di anidride solforosa contenuta nel vino in esame. Espressa in milligrammi per litro di vino senza cifre decimali.
• Sovrapressione: pressione generata dal vino in esame (in bottiglia o in autoclave) misurata in bar.
• Densita_Relativa: indica il rapporto tra la massa di un certo volume del vino in esame a 20 gradi e la massa dello stesso volume d’acqua sempre a 20 gradi.

Variabili legate ad altre caratteristiche

Oltre alle variabili legate all’analisi chimica si dispone anche di altre informazioni sul prodotto inerenti alla tipologia di vino, zona geografica del vitigno, caratteristiche di produzione e della valutazione associate alle seguenti variabili:

• Data: anno-mese-giorno in cui il prodotto vinicolo in esame è stato sottoposto all’analisi sensoriale e chimica.
• Articolo: descrive in modo dettagliato le specifiche del prodotto valutato.
• Tipologia: descrive in modo più generale le specifiche del prodotto valutato.
• Annata: anno di produzione del prodotto in esame. La modalità SA indica che l’azienda non ha dichiarato l’annata del vino.
• Denominazione: denominazione del vino in esame. Ha 3 modalità DOCG-CV (di origine controllata Conegliano-Valdobbiadene), DOC (di origine controllata), DOCG-COLLI (di origine controllata Colli di Conegliano).
• Zona_Geografica: zona geografica di appartenenza del vino in esame. Ha 4 modalità Treviso, Cartizze, Rive, Generico (localizzazione geografica non indicata).
• Tipo: indica il tipo di vino in esame. Ha 4 modalità Tranquillo, Spumante, Frizzante, Altro (vini non prosecco).
• Sfuso: indica se il prodotto in esame verrà venduto sfuso (Sfuso) o in bottiglia (Imbottigliato).
• Millesimato: indica se il vino in esame è millesimato (SI) o non millesimato (NO).
• Gusto: indica il gusto del vino in esame. Ha 8 modalità AMABILE, BRUT, DEMI (demi sec), DOLCE, DRY, EXTRADRY, RIFB (riferimento in bottiglia), SEC (secco).
• Tirato_Imbottigliato: indica se il vino in esame è già stato imbottigliato prima dell’analisi (IMBOTTIGLIATO) oppure è stato tirato (TIRATO).
• Data_Imbottigliamento: indica giorno/mese/anno in cui il vino in esame è stato imbottigliato.
• N_Bottiglie: indica il numero totale di bottiglie di vino in esame prodotte.
• Formato: indica il formato della bottiglia in litri.
• Qta: indica la quantità totale del vino in esame prodotta.
• Perdite: indica la quantità di perdite nella fase di imbottigliamento del vino in esame.
• Qta_Effettiva: indica la quantità finale del vino in esame.




dati sus_data.zip
400 KB
Per partecipare bisogna prima autenticarsi
# Nome Punteggio Prove Ultima prova
1 Team: MLT FINALE 6 16 09.09.2015
04:19
2 Team: Statistica a Bocconi FINALE 6 5 09.09.2015
05:45
3 Team: Data Driven Innovation FINALE 42 104 15.09.2015
16:04
4 Team: Like a Variance FINALE 213 17 09.09.2015
06:27
5 Team: Antics of Statistics FINALE 722 8 09.09.2015
05:51
6 Team: SPD FINALE 2028 45 09.09.2015
05:59
7 Team: alasKa FINALE 2045 26 09.09.2015
06:17
8 Team: Data Riders FINALE 2197 18 09.09.2015
05:38
9 Team: Ali e Fabi FINALE 2302 9 09.09.2015
05:36
10 Team: Belli de notte FINALE 2308 1 09.09.2015
00:59
11 Team: I Gibbi FINALE 2636 33 09.09.2015
06:23
12 Team: I 4 dell'Adimaria FINALE 2660 5 09.09.2015
05:13
13 Team: i^2 FINALE 2765 2 09.09.2015
06:10
14 Team: La compagnia del modello FINALE 2803 28 09.09.2015
05:53
15 Team: Forest Bump FINALE 2879 35 09.09.2015
06:27
16 Team: Tykli-taka FINALE 2905 7 09.09.2015
06:23
17 Team: PIrate FINALE 2923 20 09.09.2015
05:58
18 Team: EGCVteam FINALE 2976 22 09.09.2015
06:17
19 Team: Campioni Casuali FINALE 3044 21 09.09.2015
06:24
20 Team: T-Shirt FINALE 3089 4 09.09.2015
05:14
21 Team: A-TEAM FINALE 3185 2 09.09.2015
06:26
22 Team: I quasi normali FINALE 3194 22 09.09.2015
05:23
23 Team: InGiniWeTrust FINALE 3222 19 09.09.2015
05:51
24 Team: Cereal Correlation FINALE 3406 2 08.09.2015
20:32
Team Membri
InGiniWeTrust InGiniWeTrust (capitano Christian Barra) 4
Data Driven Innovation Data Driven Innovation (capitano Paolo Bajardi) 5
MLT MLT (capitano Enrico Tonini) 3
I quasi normali I quasi normali (capitano Chiara Coriele) 4
La compagnia del modello La compagnia del modello (capitano Davide Bossoli) 5
Statistica a Bocconi Statistica a Bocconi (capitano Michele Peruzzi) 2
Tykli-taka Tykli-taka (capitano Fabio Fogli) 3
I 4 dell'Adimaria I 4 dell'Adimaria (capitano Nicolò Pegoraro) 3
A-TEAM A-TEAM (capitano Domenico Boris Salvati) 4
Belli de notte Belli de notte (capitano Emanuele Aliverti) 4
Cereal Correlation Cereal Correlation (capitano Damiano Uccheddu) 2
Forest Bump Forest Bump (capitano Alvise Zanardo) 4
Like a Variance Like a Variance (capitano Paola Berchialla) 5
Campioni Casuali Campioni Casuali (capitano Giorgia Rocco) 4
Antics of Statistics Antics of Statistics (capitano Dario Solari) 2
Ali e Fabi Ali e Fabi (capitano Alessandro De Bettin) 4
i^2 i^2 (capitano Ilaria Prest) 2
EGCVteam EGCVteam (capitano Vera Djordjilovic) 4
alasKa alasKa (capitano Alex Giarolo) 5
SPD SPD (capitano Tommaso Rigon) 5
Data Riders Data Riders (capitano Riccardo Fino) 3
T-Shirt T-Shirt (capitano Mattia Cenedese) 4
I Gibbi I Gibbi (capitano Leonardo Egidi) 4
PIrate PIrate (capitano Riccardo Corradin) 4
Uruk-hai Uruk-hai (capitano Igor Artico) 5