Lección 1.1: ¿Qué son NumPy y Pandas?
NumPy (Numerical Python)
NumPy es una biblioteca especializada en cálculos numéricos de alto rendimiento. Su estructura central, el array multidimensional (ndarray), permite almacenar grandes volúmenes de datos en una sola estructura compacta, eficiente y vectorizada.
Características clave:
- Procesamiento rápido de grandes volúmenes de datos numéricos.
- Soporte para operaciones matemáticas y estadísticas avanzadas.
- Interfaz con código en C/C++ y Fortran (ideal para aplicaciones científicas).
- Base para muchas otras bibliotecas de ciencia de datos como TensorFlow y Scikit-learn.
Ejemplo:
import numpy as np
a = np.array([1, 2, 3])
print(a * 10) # [10 20 30]
|
Pandas
Pandas está diseñada para facilitar el análisis y manipulación de datos estructurados (como hojas de cálculo o bases de datos).
Su estructura principal es el DataFrame, una tabla de datos con etiquetas para filas y columnas.
Características clave:
- Lectura y escritura en múltiples formatos: CSV, Excel, JSON, SQL.
- Limpieza y transformación de datos de forma intuitiva.
- Operaciones de filtrado, agrupación, agregación y combinación de tablas.
- Ideal para análisis exploratorio, ETL y preparación de datos para machine learning.
Ejemplo:
import pandas as pd
df = pd.DataFrame({"Nombre": ["Ana", "Luis"], "Edad": [25, 30]})
print(df)
|
Comparación básica:
Característica
|
NumPy
|
Pandas
|
Tipo de datos
|
Numéricos
|
Numéricos, texto, fechas
|
Estructura principal
|
ndarray (array)
|
DataFrame, Series
|
Orientación
|
Científica, matemática
|
Análisis de datos
|
Rendimiento
|
Altísimo (bajo nivel)
|
Alto (más flexible)
|
Lección 2: Instalación de bibliotecas con pip
¿Qué es pip?
pip es el sistema de gestión de paquetes oficial de Python. Permite instalar bibliotecas adicionales desde PyPI.
Instalación básica
Verifica que tienes pip instalado:
Instala NumPy y Pandas:
Verifica la instalación
python -c "import numpy; print(numpy.__version__)"
python -c "import pandas; print(pandas.__version__)"
|
Recomendación: instalar Jupyter también
Lección 1.3: Uso de entornos virtuales para proyectos de datos
¿Por qué usar entornos virtuales?
Evitan conflictos entre bibliotecas instaladas en diferentes proyectos. Cada entorno tiene su propia instalación de Python y sus propias dependencias.
Crear y activar un entorno virtual
En Windows:
python -m venv venv
venv\Scripts\activate
|
En macOS/Linux:
python3 -m venv venv
source venv/bin/activate
|
Instalar bibliotecas dentro del entorno:
pip install numpy pandas notebook
|
Desactivar el entorno:
Consejo: Usa un entorno virtual por cada proyecto para mantener tu sistema limpio y organizado.
Lección 4: Configuración y uso de Jupyter Notebook
¿Qué es Jupyter Notebook?
Es una aplicación web interactiva que permite combinar código, texto, gráficos y resultados en un solo documento. Muy utilizado en ciencia de datos, machine learning y documentación técnica.
Instalar y lanzar Jupyter:
pip install notebook
jupyter notebook
|
Esto abrirá una interfaz en tu navegador.
Crear un notebook nuevo:
- Haz clic en "New" > "Python 3".
- Se abrirá un cuaderno en blanco donde puedes ejecutar código en "celdas".
Tipos de celdas:
- Code: Para escribir código Python.
- Markdown: Para escribir texto enriquecido (títulos, listas, ecuaciones, etc.)
Ejemplo de celda Markdown:
# Título principal
**Texto en negrita**, *cursiva*, listas:
- Punto 1
- Punto 2
|
Lección 5: Importación de bibliotecas y prueba inicial
Ahora que todo está instalado y configurado, vamos a importar las bibliotecas y realizar una prueba rápida.
import numpy as np
import pandas as pd
# NumPy: Crear un array y hacer una operación
a = np.array([5, 10, 15])
print("Array NumPy:", a * 2)
# Pandas: Crear un DataFrame básico
df = pd.DataFrame({
"Producto": ["Manzana", "Banana", "Pera"],
"Precio": [0.5, 0.3, 0.4]
})
print("\nDataFrame Pandas:\n", df)
|
Esto confirma que tu entorno está correctamente configurado y listo para comenzar con las siguientes secciones del curso.