Los datasets (o conjuntos de datos) suelen utilizarse en Machine Learning. Agrupan un conjunto coherente de datos en distintos formatos (texto, números, imágenes, vídeos, etc.).
¿Qué es un conjunto de datos?
Los conjuntos de datos pueden representarse de distintas formas, como tablas, gráficos, árboles, etc. Las estructuras de matrices se utilizan a menudo en algoritmos de Machine Learning.
Cada valor de un conjunto de datos está asociado a un atributo y a una observación.
Tomemos, por ejemplo, los datos de diferentes personas con y sin Covid-19.
Los atributos corresponderán a diferentes características como la edad, el peso, la altura, la ciudad de residencia, los síntomas, etc., mientras que cada observación estará asociada a una persona diferente.
La ventaja de los conjuntos de datos es que se pueden manipular y realizar diversos cambios en los datos. Vamos a echar un vistazo a cómo manipularlos en Python.
Manipulación de conjuntos de datos en Python
En Python, los datos se manipulan utilizando la biblioteca Pandas, cuya documentación está disponible aquí.
Se puede utilizar para crear o importar conjuntos de datos, y también para manipularlos antes de aplicar modelos de Machine Learning.
Cuando obtenemos un conjunto de datos, necesitamos hacer algunas modificaciones. Esto se debe a que los datos suelen contener una serie de errores. Por ejemplo, pueden faltar datos (que a menudo son necesarios para el análisis). También puede haber datos introducidos incorrectamente por el usuario (comas mal colocadas, demasiados 0, etc.). También surgen problemas con el tipo de datos. A menudo, los atributos (como la edad, por ejemplo) están en formato texto, mientras que para utilizar funciones estadísticas sobre este atributo (como calcular la edad media, la desviación típica, etc.), necesitamos convertir los datos de este atributo en formato numérico.
Las funciones y métodos de Pandas facilitan llevar a cabo estas diferentes etapas de manipulación y realizar los cambios necesarios en nuestro conjunto de datos.
Una vez procesados los datos del conjunto de datos, a menudo utilizamos algoritmos de Machine Learning en nuestros conjuntos de datos para predecir patrones.
Retomemos el ejemplo de nuestro conjunto de datos de pacientes con Covid-19
Cuando obtenemos este conjunto de datos, antes de crear modelos de Machine Learning, tenemos que proceder a varias modificaciones:
- No hay información sobre las características personales del paciente 4, por lo que habrá que suprimir la línea (ya que es inutilizable).
- El tamaño se da en formato de texto (esto es claramente visible ya que hay una mezcla de números y texto en la casilla). En consecuencia, tenemos que recuperar los 3 primeros caracteres de cada celda y cambiar el tipo a formato numérico.
- Podemos ver que el peso del paciente tiene un 0 de más
Una vez establecidas todas estas modificaciones, podemos explotar los datos de forma pertinente y crear modelos. Normalmente, con un conjunto de datos como este, podemos predecir qué perfil de personas es probable que presente qué síntomas en una región específica.
Aunque es necesario manipular los conjuntos de datos, también hay que asegurarse de que las fuentes de datos son válidas. Trabajar con datos falsos sería una pérdida de tiempo.
En un artículo de nuestro blog se enumeran los sitios donde se pueden encontrar datos de sitios competentes.
Los conjuntos de datos son, por tanto, muy eficaces y fáciles de utilizar para el tratamiento de datos. Nuestros cursos te permitirán conocer las distintas herramientas de manipulación de datos y planificar diferentes modelos. Si deseas más información, no dudes en ponerte en contacto con nosotros.
Los 5 mejores sitios para encontrar conjuntos de datos para Machine Learning
Si te interesa el sector aeroespacial, el deporte, el medio ambiente o el tráfico rodado en la circunvalación de París, descubre dónde y cómo recuperar conjuntos de datos adaptados a tus necesidades.
Estos son los 5 mejores sitios para obtener datos de código abierto en Internet.
1- Google Dataset Search
Esta herramienta desarrollada por Google es una de las formas más eficaces de encontrar un conjunto de datos realizando una simple búsqueda por palabra clave.
Ejemplo: Quiero hacer un proyecto de Machine Learning relacionado con el tenis y, más concretamente, con Roland Garros. ¿Por qué no añadir los resultados de Nadal a mi proyecto?
Todo lo que tienes que hacer es introducir estas 3 palabras clave en la barra de búsqueda como una simple búsqueda en Google.
La búsqueda devuelve todos los conjuntos de datos que contengan las palabras clave que se buscan, junto con una breve descripción y datos adicionales sobre los conjuntos de datos (fuente, fecha de publicación, tipo de licencia, etc.).
Puedes afinar la búsqueda utilizando ajustes avanzados como la fecha de la última actualización, los derechos de uso o si el conjunto de datos es gratuito.
2- INE (Instituto Nacional de Estadística)
El INE es el organismo responsable de la estadística oficial en España. Ofrece una amplia gama de datos estadísticos sobre población, economía, sociedad y más. Estos datos pueden ser útiles para proyectos de Machine Learning que requieran información demográfica y económica.
Se cubre una amplia gama de temas. Entre ellos figuran conjuntos de datos sobre economía, sanidad, agricultura, medio ambiente, turismo, educación y asuntos europeos. Además de los datos brutos, el INE publica regularmente informes, análisis y publicaciones que pueden proporcionar contexto importante para comprender tendencias y evoluciones en diversos campos.
3- Fema.gov
La Agencia Federal para la Gestión de Emergencias de EE. UU. (FEMA) es responsable de prevenir y proteger a la población de amenazas y peligros en Estados Unidos. Esta organización ha creado un sitio web para facilitar el acceso gratuito a bases de datos que contienen información sobre diversos temas.
Los conjuntos de datos abarcan las catástrofes ocurridas en el país, la gestión de emergencias, los programas de ayuda y los hogares que se han beneficiado de programas de prevención de catástrofes naturales.
Cada página contiene información sobre el conjunto de datos, su contenido y enlaces para descargarlos.
4- Data.nasa.gov
La NASA (Administración Nacional de Aeronáutica y el Espacio) ha decidido poner a disposición del público algunos de sus conjuntos de datos con el objetivo de “estimular tu creatividad para resolver los problemas de la Tierra”.
Además de poner a disposición del público los datos, la organización también hace accesibles de forma gratuita los proyectos realizados por los investigadores y las API.
Cuando acceda al catálogo de conjuntos de datos, podrá buscar por palabra clave y seleccionar entre una serie de filtros.
Para cada conjunto de datos tendrá acceso a una descripción detallada de las columnas y a una vista previa.
5- Datos Abiertos Gobierno de España
El Portal de Datos Abiertos del Gobierno de España es una plataforma integral que facilita el acceso a una rica diversidad de conjuntos de datos abiertos generados por distintas entidades gubernamentales de España. Este recurso, de carácter público, se posiciona como un instrumento esencial para la transparencia y la participación ciudadana al poner a disposición información relevante y actualizada.
Entre las categorías destacadas se encuentran la salud, la educación, medio ambiente, demografía, etc. Estos datos no solo proporcionan una visión detallada de la situación actual, sino que también permiten evaluar tendencias a lo largo del tiempo y analizar el impacto en la sociedad española.
La accesibilidad del Portal de Datos Abiertos del Gobierno de España se ven reforzadas por herramientas interactivas que facilitan la visualización y descarga de la información. Además, se promueve la utilización de estos conjuntos de datos para la investigación, el desarrollo de aplicaciones y, por supuesto, para impulsar proyectos de Machine Learning que buscan extraer conocimiento valioso a partir de datos gubernamentales.
Ahora que sabes dónde encontrar conjuntos de datos de calidad, todo lo que tienes que hacer es aprender a entrenar tus modelos de Machine Learning con ellos.