{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Misure di Frequenze e Rappresentazione Grafica dei Dati\n", "In questa lezione, inizieremo a vedere dei primi strumenti per riassumere le caratteristiche fondamentali dei dati." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Frequenze Assolute e Relative\n", "\n", "### Frequenze Assolute\n", "Un primo modo di descrivere i dati consiste nel calcolare il numero di volte in cui ciascun valore appare. Queste sono chiamate \"frequenze assolute\". Le frequenze assolute sono in genere calcolate per variabili discrete in cui le osservazioni assumono un numero finito di valori. \n", "\n", "Siano \n", "\n", "$$a_1, a_2, \\ldots, a_3$$ \n", "\n", "i valori che la variabile in considerazione può assumere. \n", "\n", "Le frequenze assolute $n_i$ sono definite come il numero di volte che $a_i$ appare nel campione. Si noti che:\n", "\n", "$$\\sum_i n_i = n$$\n", "\n", "Dove $n$ è il numero totale di elementi nel campione." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Esempi\n", "\n", "Consideriamo un semplice campione di 10 pazienti per i quali sono stati rilevati dei dati. Consideriamo una variabile `gender` che indica il genere dei pazienti:" ] }, { "cell_type": "code", "execution_count": 32, "metadata": { "tags": [ "remove-input" ] }, "outputs": [ { "data": { "text/plain": [ "0 M\n", "1 F\n", "2 M\n", "3 M\n", "4 M\n", "5 F\n", "6 F\n", "7 F\n", "8 F\n", "9 F\n", "dtype: object" ] }, "execution_count": 32, "metadata": {}, "output_type": "execute_result" } ], "source": [ "import pandas as pd\n", "data = pd.Series(['M','F','M','M','M','F','F','F','F','F'])\n", "data" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "I valori univoci in questo semplici esempi saranno due:" ] }, { "cell_type": "code", "execution_count": 33, "metadata": { "tags": [ "remove-input" ] }, "outputs": [ { "data": { "text/plain": [ "0 M\n", "1 F\n", "dtype: object" ] }, "execution_count": 33, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.Series(data.unique())" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Le frequenze assolute del campione in oggetto sono riassunte nella tabella seguente:" ] }, { "cell_type": "code", "execution_count": 35, "metadata": { "tags": [ "remove-input" ] }, "outputs": [ { "data": { "text/plain": [ "F 6\n", "M 4\n", "dtype: int64" ] }, "execution_count": 35, "metadata": {}, "output_type": "execute_result" } ], "source": [ "data.value_counts()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Consideriamo un dataset un po' più complesso, contenente pesi (in libbre), altezze (in pollici) e sesso di diversi soggetti. Il dataset avrà il seguente aspetto:" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "tags": [ "remove-input" ] }, "outputs": [ { "data": { "text/html": [ "
\n", " | sex | \n", "height | \n", "weight | \n", "
---|---|---|---|
0 | \n", "M | \n", "74 | \n", "53.484771 | \n", "
1 | \n", "M | \n", "70 | \n", "38.056472 | \n", "
2 | \n", "F | \n", "61 | \n", "34.970812 | \n", "
3 | \n", "M | \n", "68 | \n", "35.999365 | \n", "
4 | \n", "F | \n", "66 | \n", "34.559390 | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "
4226 | \n", "F | \n", "69 | \n", "23.862436 | \n", "
4227 | \n", "M | \n", "69 | \n", "38.262182 | \n", "
4228 | \n", "F | \n", "64 | \n", "34.970812 | \n", "
4229 | \n", "F | \n", "64 | \n", "28.388071 | \n", "
4230 | \n", "F | \n", "61 | \n", "22.628172 | \n", "
4231 rows × 3 columns
\n", "\n", " | sex | \n", "height | \n", "weight | \n", "
---|---|---|---|
0 | \n", "M | \n", "74 | \n", "53.484771 | \n", "
1 | \n", "M | \n", "70 | \n", "38.056472 | \n", "
2 | \n", "F | \n", "61 | \n", "34.970812 | \n", "
3 | \n", "M | \n", "68 | \n", "35.999365 | \n", "
4 | \n", "F | \n", "66 | \n", "34.559390 | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "
4226 | \n", "F | \n", "69 | \n", "23.862436 | \n", "
4227 | \n", "M | \n", "69 | \n", "38.262182 | \n", "
4228 | \n", "F | \n", "64 | \n", "34.970812 | \n", "
4229 | \n", "F | \n", "64 | \n", "28.388071 | \n", "
4230 | \n", "F | \n", "61 | \n", "22.628172 | \n", "
4231 rows × 3 columns
\n", "