¿Por qué es fundamental la aritmética en Data Science?

La aritmética es la base de muchos algoritmos y técnicas utilizadas en Data Science. Permite realizar cálculos precisos y rápidos, esenciales para analizar e interpretar grandes cantidades de datos.

¿Qué conceptos aritméticos son los más utilizados en Data Science?

Los conceptos más comúnmente utilizados incluyen operaciones básicas (suma, resta, multiplicación, división), fracciones, porcentajes y potencias. Estos elementos son esenciales para el procesamiento y la manipulación de datos.

¿Cómo se aplica la aritmética en los algoritmos de Data Science?

La aritmética se utiliza para operaciones como la normalización de datos, los cálculos de distancias en los algoritmos de clustering, los análisis estadísticos básicos y muchos otros procesos esenciales para el funcionamiento de los modelos de machine learning.

¿Es posible practicar Data Science sin un buen dominio de la aritmética?

Aunque las herramientas y los programas pueden simplificar algunos cálculos, una buena comprensión de la aritmética es indispensable para interpretar correctamente los resultados, optimizar los algoritmos y resolver problemas complejos en Data Science.

Volver a Artículos

Aritmética: todo sobre el invisible fundamento de la Ciencia de Datos

4 Sep
1:58 pm
m de lecture

Data Science

La aritmética es una rama fundamental de las matemáticas, que trata de las propiedades elementales de los números y de las operaciones básicas. A menudo percibida como una simple herramienta de cálculo, en realidad juega un papel esencial en Data Science y en la IA. ¡Descubre todo lo que necesitas saber!

Con raíces en civilizaciones antiguas que se remontan a más de 20 000 años, la aritmética es a menudo considerada como la rama más elemental de las matemáticas.

No obstante, también es un pilar fundamental de muchas disciplinas científicas y técnicas. Este es el caso de Data Science, donde juega un papel mayor y, a menudo, subestimado…

Entonces, ¿cuál es su utilidad para la ciencia de los datos y cómo los Data Scientists la explotan en el día a día? ¡Eso es lo que descubrirás en el resto de este artículo!

¿Qué es la aritmética?

Las primeras huellas de cálculos aritméticos se han descubierto en huesos tallados que datan del Paleolítico Superior.

A lo largo de los siglos, los sistemas de numeración y los métodos de cálculo se han desarrollado en diversas culturas, desde el antiguo Egipto hasta Mesopotamia, pasando por la antigua Grecia e India.

El término «aritmética» proviene del griego «arithmos» que significa «número». Los antiguos griegos, como Pitágoras y sus discípulos, contribuyeron enormemente al avance de esta disciplina.

Se basa en cuatro operaciones fundamentales: la suma, la resta, la multiplicación y la división. Estas operaciones forman la base de todos los cálculos matemáticos más avanzados.

Asimismo, la aritmética también se interesa por las propiedades intrínsecas de los números. Por ejemplo, se distingue entre números pares e impares, números primos (divisibles solo por 1 y por sí mismos), números compuestos (con más de dos divisores) y números racionales e irracionales.

Otro concepto es el de las representaciones fraccionarias y decimales de los números, que permite expresar cantidades no enteras y realizar cálculos más precisos.

Sin embargo, ¡no creas que la aritmética se limita a las matemáticas básicas! Aunque a menudo está asociada a ellas, se extiende a campos más avanzados como la teoría de números.

Esta rama explora las propiedades profundas de los números enteros y sus relaciones, abordando problemas complejos como la conjetura de Goldbach o el último teorema de Fermat.

Por su parte, la aritmética modular, o aritmética de las congruencias, es un sistema donde los números «cierran» después de alcanzar un cierto valor (el módulo). Esta rama es particularmente importante en criptografía y en informática.

Así, lejos de limitarse a los simples cálculos enseñados en la escuela primaria, la aritmética constituye un campo rico y complejo y forma la base de muchas ramas de las matemáticas y sus aplicaciones prácticas… ¡especialmente en Data Science!

El papel de la aritmética en Data Science

En cada etapa del proceso de Data Science, la aritmética resulta indispensable. Desde el inicio, durante el tratamiento inicial de los datos, reviste una importancia capital.

1. Limpieza y tratamiento de datos

La limpieza de datos, o Data Cleaning, a menudo implica operaciones básicas. Por ejemplo, es posible identificar y reemplazar los valores atípicos utilizando umbrales calculados aritméticamente.

También se puede normalizar los datos restando la media y dividiendo por la desviación estándar, o imputar los valores faltantes calculando medias o medianas.

De igual manera, las estadísticas descriptivas se basan en gran medida en la aritmética. El cálculo de la media es la suma de los valores dividida por su número, el cálculo de la mediana es la identificación del valor central después de la ordenación, y el cálculo de la desviación estándar es la raíz cuadrada de la media de los cuadrados de las diferencias con la media.

2. Análisis de datos

Posteriormente, durante el análisis de datos, los indicadores de rendimiento (KPI en business intelligence) también se basan en cálculos aritméticos.

Un ejemplo es la tasa de conversión, que es la división del número de conversiones por el número total de visitantes.

El crecimiento en porcentaje, por su parte, se mide restando el valor antiguo del nuevo, luego dividiendo por el antiguo seguido de una multiplicación por 100.

Otras técnicas utilizan la aritmética para hacer que los datos sean comparables. Es el caso de la normalización Min-Max (x-min) / (max – min) y la estandarización Z-score (x-media) / desviación estándar.

3. Modelado

La siguiente etapa es el modelado, y nuevamente, muchos algoritmos de Machine Learning en realidad se basan en operaciones aritméticas.

La regresión lineal es el cálculo de los coeficientes mediante el método de mínimos cuadrados, mientras que la agrupación de k-medias es el cálculo iterativo de los centroides como la media aritmética de los puntos asignados.

Para la evaluación del rendimiento de los modelos, las métricas también utilizan la aritmética. La precisión se mide mediante la fórmula « verdaderos positivos / (verdaderos positivos + falsos positivos) ».

El recall se basa en la fórmula « verdaderos positivos / (verdaderos positivos + falsos negativos) » y el F1-score se obtiene a través de la media aritmética de la precisión y el recall.

4. Visualización de datos o DataViz

Como tal vez sepas, después del análisis de los datos, es fundamental presentar los resultados en forma de visualizaciones claras e intuitivas para que puedan ser comprendidos por las partes interesadas no técnicas.

Ahora bien, la creación de visualizaciones requiere cálculos aritméticos. Los histogramas implican el cálculo de intervalos y el conteo de ocurrencias, mientras que los diagramas circulares se basan en el cálculo de ángulos proporcionales a las frecuencias.

También se utiliza la aritmética para la escala de los ejes, con el fin de determinar las escalas adecuadas. El cálculo de los valores mínimos y máximos permite definir los límites de los ejes. También se trata de determinar los intervalos regulares para las graduaciones.

Un recurso invaluable para los Data Scientists

Una sólida comprensión de la aritmética permite a los Data Scientists desarrollar nuevos enfoques basados en sus principios, comprender intuitivamente el funcionamiento de los algoritmos e interpretar correctamente los resultados estadísticos.

Esto también resulta muy útil para el debugging y la verificación de resultados. La aritmética permite verificar manualmente los cálculos de un algoritmo, identificar errores en el código mediante la comparación de los resultados esperados y obtenidos, y realizar pruebas de coherencia en los datos y resultados.

Además, ayuda en la optimización del rendimiento simplificando los cálculos complejos para mejorar la eficiencia del código y eligiendo las estructuras de datos adecuadas basadas en la complejidad aritmética.

También es una manera de implementar aproximaciones numéricas eficientes cuando los cálculos exactos son demasiado costosos. Por todas estas razones, ¡la aritmética es un aliado valioso del Data Scientist!

Una experiencia requerida para enfrentar los desafíos

La aplicación de la aritmética en Data Science puede ser más compleja de lo que parece. Primero, recordemos que las computadoras utilizan una representación binaria de los números que puede provocar problemas de precisión.

Por ejemplo, los números de coma flotante no pueden representar exactamente todos los valores decimales. Esto puede producir errores de redondeo.

Los números muy grandes o muy pequeños también pueden sobrepasar los límites de representación, provocando errores de cálculo. Y la resta de dos números muy cercanos puede resultar en una pérdida significativa de precisión.

La solución consiste en utilizar bibliotecas de cálculo con precisión arbitraria o técnicas avanzadas de cálculo numérico.

Otro problema es que la aritmética tradicional puede poner en apuros frente al Big Data. Incluso las operaciones más simples pueden volverse costosas en tiempo cuando se repiten miles de millones de veces.

El almacenamiento de resultados intermedios también puede sobrecargar la memoria disponible. Además, ciertas operaciones son difíciles de paralelizar de manera efectiva.

La mejor forma de superar este obstáculo es utilizar técnicas de muestreo, algoritmos aproximados o cálculo distribuido.

Algunos algoritmos de Machine Learning y IA también van más allá de la aritmética simple. Este es el caso de las redes neuronales profundas que utilizan operaciones en tensores multidimensionales.

Muchos algoritmos de aprendizaje también utilizan técnicas de optimización complejas que no se basan únicamente en la aritmética elemental. Lo mismo ocurre con algunos modelos bayesianos o probabilísticos que requieren cálculos mucho más complejos.

Por ello, una formación profunda en matemáticas avanzadas y en cálculo científico puede resultar indispensable para los Data Scientists.

Conclusión: la aritmética, una base matemática esencial en la ciencia de los datos

Como has podido descubrir en este artículo, la aritmética forma la base de las operaciones de tratamiento y análisis de datos y permite la evaluación y la interpretación de los resultados.

También se encuentra en el corazón de muchos algoritmos de Machine Learning y de estadísticas, lo que hace que su dominio sea indispensable para cualquier Data Scientist.

Para adquirir todas las habilidades y conocimientos requeridos para ejercer esta profesión, puedes recurrir a DataScientest.

Nuestras formaciones te permitirán aprender programación en Python, DataViz, Machine Learning y Deep Learning, análisis de datos o incluso Data Engineering y MLOps.

Al final del recorrido, tendrás todas las herramientas para trabajar como profesional de Data Science y recibirás un diploma y una certificación altamente reconocidos.

Todas nuestras formaciones se realizan en línea, en bootcamp o tiempo parcial. ¡Descubre DataScientest!

Ahora que sabes todo sobre la aritmética, descubre nuestro artículo sobre los algoritmos y nuestro artículo completamente dedicado al Machine Learning para obtener más información sobre el mismo tema.

¿No está disponible?

Déjenos su dirección de correo electrónico para que podamos enviarle los nuevos artículos cuando se publiquen.

JPO : Webinar d'information sur nos formations → RDV mardi à 17h30.

Data Scientist

Data Analyst

Data Engineer