Corsi IT da 24 ore finanziati al 70% – iscrizioni aperte
Descrizione
Questo corso è progettato per chi possiede già una conoscenza di base di Python e desidera specializzarsi nell’elaborazione e analisi dei dati. Il focus principale è sull’utilizzo delle librerie standard del settore data science (NumPy, Pandas, Matplotlib, Seaborn) per estrarre, pulire, manipolare e visualizzare informazioni da dataset complessi. Verrà data forte enfasi all’Analisi Esplorativa dei Dati (EDA), al data wrangling e alla capacità di trarre conclusioni di business o di ricerca attraverso l’estrazione di KPI e la visualizzazione grafica.
LIVELLO
Intermedio
PER CHI
- Analisti di dati
- Sviluppatori Python
- Professionisti di business, marketing e operations
- Studenti e tecnici interessati alla data analysis
PREREQUISITI
- Conoscenza di base del linguaggio Python (variabili, strutture dati, funzioni).
- Familiarità con l’uso del computer e con file di dati come CSV o Excel.
Obiettivi
- Dominare le librerie fondamentali (NumPy, Pandas) per la gestione e l’elaborazione rapida di grandi moli di dati strutturati.
- Acquisire e pulire dati grezzi provenienti da diverse fonti (CSV, Excel, JSON, database) gestendo valori mancanti, formati errati e duplicati.
- Eseguire analisi esplorative (EDA) aggregando e raggruppando i dati per calcolare metriche statistiche ed estrarre insight significativi.
- Creare visualizzazioni dati efficaci (Matplotlib e Seaborn) per comunicare i risultati in modo chiaro e professionale.
- Utilizzare le principali librerie Python per l’analisi dei dati (NumPy e Pandas).
- Importare, pulire e trasformare dataset provenienti da diverse fonti.
- Eseguire analisi esplorative dei dati per individuare pattern e insight significativi.
- Creare visualizzazioni dati chiare ed efficaci per comunicare risultati e metriche.
- Applicare un flusso completo di analisi dati, dalla preparazione alla presentazione dei risultati.
Programma
Modulo 1 – Setup Ambiente e Ripasso Funzionalità Avanzate
- Ambiente di lavoro: Introduzione a Jupyter Notebook e Google Colab per l’analisi interattiva; gestione degli ambienti virtuali (venv/conda).
- Ripasso concetti chiave: List/Dict comprehensions per scrivere codice conciso, spacchettamento (unpacking) delle variabili.
- Funzioni avanzate: Uso di funzioni anonime (lambda), map(), filter() ed enumerate().
- Gestione stringhe e date: Metodi avanzati per le stringhe e fondamenti sul modulo nativo datetime.
Modulo 2 – Calcolo Vettoriale con NumPy
- Cos’è NumPy: Vantaggi degli array multidimensionali (ndarray) rispetto alle liste native in termini di performance.
- Creazione e struttura: Inizializzazione di array, attributi fondamentali (.shape, .ndim, .dtype), e reshaping (.reshape()).
- Indicizzazione e selezione: Slicing avanzato, indicizzazione tramite array di interi e boolean masking (filtri condizionali).
- Matematica e Vettorializzazione: Operazioni matematiche sugli array, concetto di broadcasting e funzioni statistiche di base (np.mean, np.std, np.sum).
Modulo 3 – Gestione dei Dati con Pandas – Le Basi
- Strutture dati principali: Differenza e utilizzo di Series (1D) e DataFrame (2D).
- Importazione/Esportazione (I/O): Lettura e scrittura di file esterni con pd.read_csv(), pd.read_excel(), to_csv().
- Ispezione del dataset: Utilizzo di .head(), .tail(), .info(), .describe() per una prima panoramica dei dati.
- Selezione e filtraggio: Navigazione del DataFrame tramite indici espliciti ed impliciti (.loc[] e .iloc[]), applicazione di filtri multipli (AND/OR).
Modulo 4 – Data Wrangling (Pulizia e Trasformazione Dati)
- Gestione Valori Mancanti (NaN): Identificazione (.isna()), rimozione (.dropna()) e imputazione/riempimento (.fillna()).
- Trasformazione colonne: Modifica dei tipi di dato (.astype()), applicazione di funzioni custom tramite .apply().
- Manipolazione testo e date: Accesso ai metodi vettorializzati per stringhe (.str.replace(), .str.lower()) e conversione temporale (pd.to_datetime()).
- Combinazione dataset: Unire più fonti dati tramite merge() (stile SQL JOIN) e concat().
Modulo 5 – Analisi Esplorativa (EDA) e Aggregazione
- Raggruppamento (Grouping): Utilizzo di .groupby() combinato con funzioni di aggregazione per calcolare metriche su categorie specifiche.
- Tabelle Pivot: Creazione di sintesi multidimensionali con pd.pivot_table() e calcoli incrociati (pd.crosstab()).
- Riordino e pulizia fine: Ordinamento dei dati (.sort_values()), gestione dei duplicati (.drop_duplicates()), rinomina delle colonne.
- Metodologia: Come porsi le domande giuste davanti a un dataset e strutturare il processo di esplorazione.
Modulo 6 – Data Visualization (Matplotlib e Seaborn)
- Fondamenti di Matplotlib: Architettura Figure-Axes, grafici di base (linee, scatter plot, istogrammi, grafici a barre).
- Personalizzazione visiva: Aggiunta di titoli, etichette (labels), legende, gestione dei colori e salvataggio dei grafici.
- Grafica statistica con Seaborn: Integrazione diretta con i DataFrame di Pandas.
- Grafici complessi: Creazione rapida di boxplot (per analisi degli outlier), violinplot, heatmap (per matrici di correlazione) e pairplot.
Progetto Finale
- Obiettivo: Esecuzione di una pipeline di analisi dati completa (EDA) su un dataset reale fornito dal docente (es. dati di e-commerce, finanza o Airbnb).
- Step 1: Importazione, ispezione e pulizia profonda dei dati (trattamento dei NaN e formati scorretti).
- Step 2: Formulazione di ipotesi e risposte tramite raggruppamento e aggregazione di KPI rilevanti.
- Step 3: Creazione di una “dashboard” visiva (su Jupyter Notebook) contenente grafici esplicativi a supporto delle conclusioni trovate.
Best practice analitiche:
- Documentazione del processo analitico tramite celle Markdown e scrittura di codice modulare.
ESERCITAZIONI
Durante il corso sono previste esercitazioni guidate su: manipolazione dei dati con NumPy, analisi e pulizia dei dataset con Pandas, data wrangling, creazione di visualizzazioni con Matplotlib e Seaborn e attività di analisi esplorativa dei dati.
Le attività si concluderanno con un progetto finale di analisi dati su un dataset reale.
Sessioni
Contattaci all’indirizzo academy@larus-ba.it per maggiori informazioni sul calendario dei corsi
Vuoi potenziare le competenze del tuo team?
€ 1.485 + IVA* per l’intero team, per ciascun corso da 24 ore.
Offerta riservata ai gruppi da 4 e 5 persone
*Importo riferito al costo residuo in caso di finanziamento approvato, previa verifica della disponibilità dei fondi al momento della richiesta. Il finanziamento dedicato non incide sul regime “de minimis”
Finanziamenti disponibili
Tutti i nostri corsi sono cofinanziabili fino al 70% grazie ai fondi PNRR – Next Generation EU, con sconto diretto in fattura per le PMI. Il contributo non incide sul regime “de minimis”.
I finanziamenti sono disponibili grazie alla partnership tra LARUS Business Automation e SMACT Competence Center, centro di riferimento nazionale sulle tecnologie digitali.