Contenido del Curso

1. Introducción al Curso y Preparación del Entorno

Lección 1.1: ¿Qué son NumPy y Pandas?

NumPy (Numerical Python)

NumPy es una biblioteca especializada en cálculos numéricos de alto rendimiento. Su estructura central, el array multidimensional (ndarray), permite almacenar grandes volúmenes de datos en una sola estructura compacta, eficiente y vectorizada.

Características clave:

Procesamiento rápido de grandes volúmenes de datos numéricos.
Soporte para operaciones matemáticas y estadísticas avanzadas.
Interfaz con código en C/C++ y Fortran (ideal para aplicaciones científicas).
Base para muchas otras bibliotecas de ciencia de datos como TensorFlow y Scikit-learn.

Ejemplo:

import numpy as np
a = np.array([1, 2, 3])
print(a * 10) # [10 20 30]

Pandas

Pandas está diseñada para facilitar el análisis y manipulación de datos estructurados (como hojas de cálculo o bases de datos).

Su estructura principal es el DataFrame, una tabla de datos con etiquetas para filas y columnas.

Características clave:

Lectura y escritura en múltiples formatos: CSV, Excel, JSON, SQL.
Limpieza y transformación de datos de forma intuitiva.
Operaciones de filtrado, agrupación, agregación y combinación de tablas.
Ideal para análisis exploratorio, ETL y preparación de datos para machine learning.

Ejemplo:

import pandas as pd
df = pd.DataFrame({"Nombre": ["Ana", "Luis"], "Edad": [25, 30]})
print(df)

Comparación básica:

Característica	NumPy	Pandas
Tipo de datos	Numéricos	Numéricos, texto, fechas
Estructura principal	ndarray (array)	DataFrame, Series
Orientación	Científica, matemática	Análisis de datos
Rendimiento	Altísimo (bajo nivel)	Alto (más flexible)

Lección 2: Instalación de bibliotecas con pip

¿Qué es pip?

pip es el sistema de gestión de paquetes oficial de Python. Permite instalar bibliotecas adicionales desde PyPI.

Instalación básica

Verifica que tienes pip instalado:

pip --version

Instala NumPy y Pandas:

pip install numpy pandas

Verifica la instalación

python -c "import numpy; print(numpy.__version__)"
python -c "import pandas; print(pandas.__version__)"

Recomendación: instalar Jupyter también

pip install notebook

Lección 1.3: Uso de entornos virtuales para proyectos de datos

¿Por qué usar entornos virtuales?

Evitan conflictos entre bibliotecas instaladas en diferentes proyectos. Cada entorno tiene su propia instalación de Python y sus propias dependencias.

Crear y activar un entorno virtual

En Windows:

python -m venv venv
venv\Scripts\activate

En macOS/Linux:

python3 -m venv venv
source venv/bin/activate

Instalar bibliotecas dentro del entorno:

pip install numpy pandas notebook

Desactivar el entorno:

deactivate

Consejo: Usa un entorno virtual por cada proyecto para mantener tu sistema limpio y organizado.

Lección 4: Configuración y uso de Jupyter Notebook

¿Qué es Jupyter Notebook?

Es una aplicación web interactiva que permite combinar código, texto, gráficos y resultados en un solo documento. Muy utilizado en ciencia de datos, machine learning y documentación técnica.

Instalar y lanzar Jupyter:

pip install notebook
jupyter notebook

Esto abrirá una interfaz en tu navegador.

Crear un notebook nuevo:

Haz clic en "New" > "Python 3".
Se abrirá un cuaderno en blanco donde puedes ejecutar código en "celdas".

Tipos de celdas:

Code: Para escribir código Python.
Markdown: Para escribir texto enriquecido (títulos, listas, ecuaciones, etc.)

Ejemplo de celda Markdown:

# Título principal
**Texto en negrita**, *cursiva*, listas:
- Punto 1
- Punto 2

Lección 5: Importación de bibliotecas y prueba inicial

Ahora que todo está instalado y configurado, vamos a importar las bibliotecas y realizar una prueba rápida.

import numpy as np
import pandas as pd

# NumPy: Crear un array y hacer una operación
a = np.array([5, 10, 15])
print("Array NumPy:", a * 2)

# Pandas: Crear un DataFrame básico
df = pd.DataFrame({
"Producto": ["Manzana", "Banana", "Pera"],
"Precio": [0.5, 0.3, 0.4]
})
print("\nDataFrame Pandas:\n", df)

Esto confirma que tu entorno está correctamente configurado y listo para comenzar con las siguientes secciones del curso.

1.2 Actividad práctica & Autoevaluación

2. Primeros Pasos con NumPy

2.1 Contenido de la Sección

2.2 Actividad práctica & Autoevaluación

3. Introducción a Pandas – Series

3.1 Contenido de la sección

Lección 1: ¿Qué es una Serie en Pandas?

Una Serie en Pandas es una estructura unidimensional que puede almacenar cualquier tipo de dato: enteros, flotantes, cadenas, booleanos, fechas, etc. Se parece a una columna de Excel o una lista de Python, pero con etiquetas (índices) asociadas a cada valor.

Características de una Serie:

Contiene valores y índices.
Cada elemento se puede acceder por su posición o etiqueta.
Permite operaciones vectorizadas y estadísticas con funciones incorporadas.
Se construye sobre NumPy arrays, lo que le da gran eficiencia.

Ejemplo básico:

import pandas as pd

s = pd.Series([10, 20, 30])
print(s)

Salida:

0 10
1 20
2 30
dtype: int64

Lección 2: Crear Series desde listas, arrays y diccionarios

Desde una lista:

nombres = ["Ana", "Luis", "Carlos"]
serie_nombres = pd.Series(nombres)
print(serie_nombres)

Desde un array de NumPy:

import numpy as np
valores = np.array([100, 200, 300])
serie_valores = pd.Series(valores)

Desde un diccionario (índices personalizados):

edades = {"Ana": 25, "Luis": 30, "Carlos": 28}
serie_edades = pd.Series(edades)
print(serie_edades)

Ventaja: Si usas un diccionario, las claves se convierten automáticamente en los índices de la Serie.

Lección 3: Acceso por índice y etiqueta

Acceso por posición:

print(serie_nombres[0]) # "Ana"

Acceso por etiqueta:

print(serie_edades["Luis"]) # 30

Slicing:

print(serie_nombres[0:2]) # Primeros dos elementos

Acceso con .loc[] y .iloc[]:

.loc[] accede por etiqueta
.iloc[] accede por posición

print(serie_edades.loc["Carlos"])
print(serie_edades.iloc[1])

Lección 3.4: Operaciones básicas y estadísticas con Series

Operaciones matemáticas:

numeros = pd.Series([10, 20, 30])
print(numeros + 5) # [15, 25, 35]
print(numeros * 2) # [20, 40, 60]

Funciones estadísticas:

print(numeros.sum()) # 60
print(numeros.mean()) # 20.0
print(numeros.max()) # 30
print(numeros.min()) # 10

Aplicar condiciones:

print(numeros > 15) # [False, True, True]
print(numeros[numeros > 15]) # Filtra los mayores a 15

Métodos útiles:

serie = pd.Series(["a", "b", "c"])
print(serie.str.upper()) # ["A", "B", "C"]

Lección 5: Aplicaciones prácticas de Series

Las Series son útiles para representar:

1. Registros unidimensionales con etiquetas:

temperaturas = pd.Series([22.1, 23.4, 21.9], index=["Lunes", "Martes", "Miércoles"])
print(temperaturas)

2. Vectores de datos que pueden usarse en operaciones estadísticas:

ventas = pd.Series([100, 250, 170, 130])
print("Total:", ventas.sum())

3. Comparación entre grupos:

productos = pd.Series([20, 35, 15], index=["A", "B", "C"])
print(productos[productos > 20])

4. Datos temporales (más adelante con DatetimeIndex):

import pandas as pd
import numpy as np
fechas = pd.date_range("2024-01-01", periods=3)
serie_fechas = pd.Series(np.random.rand(3), index=fechas)
print(serie_fechas)

3.2 Actividad práctica & Autoevaluación

4. Estructura y uso de DataFrames

4.1 Contenido de la sección

4.2 Actividad práctica & Autoevaluación

5: Limpieza y preparación de datos

5.1 Contenido de la sección

5.2 Actividad práctica & Autoevaluación

6. Transformación y agrupación de datos

6.1 Contenido de la sección

6.2 Actividad práctica & Autoevaluación

7. Visualización de datos

7.1 Contenido de la sección

Lección 1: Introducción a .plot() desde Pandas

¿Qué es .plot()?

Pandas incorpora funciones de visualización basadas en Matplotlib, lo que permite generar gráficos de manera muy simple directamente desde un DataFrame o una Serie.

Ventajas:

Sintaxis muy simple.
Ideal para exploración rápida de datos.
Integra automáticamente etiquetas, leyendas y títulos básicos.

Ejemplo básico:

mport pandas as pd
import matplotlib.pyplot as plt

ventas = pd.Series([100, 120, 90, 130, 150], index=["Ene", "Feb", "Mar", "Abr", "May"])
ventas.plot()
plt.show()

Tipos básicos disponibles:

'line' (línea) – valor por defecto
'bar' (barras verticales)
'barh' (barras horizontales)
'hist' (histograma)
'pie' (pastel)

ventas.plot(kind="bar")
plt.show()

Importante: Aunque Pandas hace más sencillo graficar, utiliza internamente Matplotlib, por lo que ambos están estrechamente ligados.

Lección 2: Gráficos de líneas, barras, histogramas y pastel

Gráfico de líneas (ideal para series temporales):

df["Ventas"].plot(kind="line", title="Ventas mensuales")

Gráfico de barras:

df.plot(kind="bar", x="Producto", y="Ventas", color="skyblue")

Gráfico de barras horizontales:

df.plot(kind="barh", x="Producto", y="Ventas", color="orange")

Histograma (distribución de frecuencia):

df["Edad"].plot(kind="hist", bins=5)

Gráfico de pastel (solo para Series):

df["Ventas"].plot(kind="pie", labels=df["Producto"], autopct="%1.1f%%")

Recomendación: Usa pastel solo para representar proporciones, no para comparaciones absolutas.

Lección 3: Personalización de gráficos (colores, etiquetas, títulos)

Personalizar etiquetas y títulos:

df.plot(kind="bar")
plt.title("Ventas por Producto")
plt.xlabel("Producto")
plt.ylabel("Unidades vendidas")

Cambiar colores:

df.plot(kind="bar", color=["red", "green", "blue"])

Añadir rejilla (grid) y ajustar figura:

plt.grid(True)
plt.tight_layout()

Cambiar tamaño del gráfico:

df.plot(kind="line", figsize=(8, 4))

Consejo: Siempre llama a plt.show() al final para asegurar que el gráfico se renderice correctamente, especialmente en scripts.

Lección 4: Relación entre Pandas y Matplotlib

Pandas no reemplaza a Matplotlib, sino que lo utiliza internamente para facilitar la visualización. Por eso, puedes:

Usar df.plot() para crear gráficos básicos rápidamente.
Acceder a control total usando matplotlib.pyplot.

Combinar ambos:

ax = df.plot(kind="bar", title="Ventas")
ax.set_ylabel("Unidades")
ax.set_xlabel("Productos")
plt.xticks(rotation=45)
plt.grid(True)
plt.show()

En contextos más avanzados, usarás Seaborn o directamente matplotlib para diseños más personalizados.

7.2 Actividad práctica & Autoevaluación

1.1 Contenido de la sección

Lección 1.1: ¿Qué son NumPy y Pandas?

NumPy (Numerical Python)

Características clave:

Procesamiento rápido de grandes volúmenes de datos numéricos.
Soporte para operaciones matemáticas y estadísticas avanzadas.
Interfaz con código en C/C++ y Fortran (ideal para aplicaciones científicas).
Base para muchas otras bibliotecas de ciencia de datos como TensorFlow y Scikit-learn.

Ejemplo:

import numpy as np
a = np.array([1, 2, 3])
print(a * 10) # [10 20 30]

Pandas

Pandas está diseñada para facilitar el análisis y manipulación de datos estructurados (como hojas de cálculo o bases de datos).

Su estructura principal es el DataFrame, una tabla de datos con etiquetas para filas y columnas.

Características clave:

Lectura y escritura en múltiples formatos: CSV, Excel, JSON, SQL.
Limpieza y transformación de datos de forma intuitiva.
Operaciones de filtrado, agrupación, agregación y combinación de tablas.
Ideal para análisis exploratorio, ETL y preparación de datos para machine learning.

Ejemplo:

import pandas as pd
df = pd.DataFrame({"Nombre": ["Ana", "Luis"], "Edad": [25, 30]})
print(df)

Comparación básica:

Característica	NumPy	Pandas
Tipo de datos	Numéricos	Numéricos, texto, fechas
Estructura principal	ndarray (array)	DataFrame, Series
Orientación	Científica, matemática	Análisis de datos
Rendimiento	Altísimo (bajo nivel)	Alto (más flexible)

Lección 2: Instalación de bibliotecas con pip

¿Qué es pip?

pip es el sistema de gestión de paquetes oficial de Python. Permite instalar bibliotecas adicionales desde PyPI.

Instalación básica

Verifica que tienes pip instalado:

pip --version

Instala NumPy y Pandas:

pip install numpy pandas

Verifica la instalación

python -c "import numpy; print(numpy.__version__)"
python -c "import pandas; print(pandas.__version__)"

Recomendación: instalar Jupyter también

pip install notebook

Lección 1.3: Uso de entornos virtuales para proyectos de datos

¿Por qué usar entornos virtuales?

Evitan conflictos entre bibliotecas instaladas en diferentes proyectos. Cada entorno tiene su propia instalación de Python y sus propias dependencias.

Crear y activar un entorno virtual

En Windows:

python -m venv venv
venv\Scripts\activate

En macOS/Linux:

python3 -m venv venv
source venv/bin/activate

Instalar bibliotecas dentro del entorno:

pip install numpy pandas notebook

Desactivar el entorno:

deactivate

Consejo: Usa un entorno virtual por cada proyecto para mantener tu sistema limpio y organizado.

Lección 4: Configuración y uso de Jupyter Notebook

¿Qué es Jupyter Notebook?

Es una aplicación web interactiva que permite combinar código, texto, gráficos y resultados en un solo documento. Muy utilizado en ciencia de datos, machine learning y documentación técnica.

Instalar y lanzar Jupyter:

pip install notebook
jupyter notebook

Esto abrirá una interfaz en tu navegador.

Crear un notebook nuevo:

Haz clic en "New" > "Python 3".
Se abrirá un cuaderno en blanco donde puedes ejecutar código en "celdas".

Tipos de celdas:

Code: Para escribir código Python.
Markdown: Para escribir texto enriquecido (títulos, listas, ecuaciones, etc.)

Ejemplo de celda Markdown:

# Título principal
**Texto en negrita**, *cursiva*, listas:
- Punto 1
- Punto 2

Lección 5: Importación de bibliotecas y prueba inicial

Ahora que todo está instalado y configurado, vamos a importar las bibliotecas y realizar una prueba rápida.

Esto confirma que tu entorno está correctamente configurado y listo para comenzar con las siguientes secciones del curso.

Contenido del Curso

Lección 1.1: ¿Qué son NumPy y Pandas?

NumPy (Numerical Python)

Características clave:

Ejemplo:

Pandas

Características clave:

Ejemplo:

Lección 2: Instalación de bibliotecas con pip

¿Qué es pip?

Instalación básica

Verifica la instalación

Recomendación: instalar Jupyter también

Lección 1.3: Uso de entornos virtuales para proyectos de datos

¿Por qué usar entornos virtuales?

Crear y activar un entorno virtual

En Windows:

En macOS/Linux:

Instalar bibliotecas dentro del entorno:

Desactivar el entorno:

Lección 4: Configuración y uso de Jupyter Notebook

¿Qué es Jupyter Notebook?

Instalar y lanzar Jupyter:

Crear un notebook nuevo:

Tipos de celdas:

Ejemplo de celda Markdown:

Lección 5: Importación de bibliotecas y prueba inicial

Actividad práctica de la sección

Autoevaluación

Conclusión de la sección

Lección 2.1: ¿Qué es un array? Ventajas frente a listas

¿Qué es un array en NumPy?

Comparación con listas:

Lista de Python:

Array de NumPy:

Ventajas principales:

Lección 2.2: Crear arrays unidimensionales, bidimensionales y n-dimensionales

Array unidimensional (vector):

Array bidimensional (matriz):

Array tridimensional o más:

Buenas prácticas:

Lección 3: Propiedades de los arrays: .shape, .dtype, .ndim, .size

Ejemplo práctico:

Lección 4: Indexación, slicing y selección de datos

Acceso a elementos (indexación):

En 2D:

Slicing (rebanado):

Selección condicional:

Lección 5: Operaciones matemáticas y broadcasting

Operaciones básicas:

Broadcasting:

Lección 2.6: Métodos útiles de creación y transformación

arange() – rango numérico:

linspace() – secuencia equidistante:

zeros() y ones() – matrices de ceros y unos:

reshape() – cambiar forma:

Actividad práctica de la sección

Autoevaluación

Conclusión de la sección

Lección 1: ¿Qué es una Serie en Pandas?

Características de una Serie:

Ejemplo básico:

Lección 2: Crear Series desde listas, arrays y diccionarios

Desde una lista:

Desde un array de NumPy:

Desde un diccionario (índices personalizados):

Lección 3: Acceso por índice y etiqueta

Acceso por posición:

Acceso por etiqueta:

Slicing:

Acceso con .loc[] y .iloc[]:

Lección 3.4: Operaciones básicas y estadísticas con Series

Operaciones matemáticas:

Funciones estadísticas:

Aplicar condiciones:

Métodos útiles:

Lección 5: Aplicaciones prácticas de Series

1. Registros unidimensionales con etiquetas:

2. Vectores de datos que pueden usarse en operaciones estadísticas:

3. Comparación entre grupos: