Algoritmos de clasificación distribuidos en la computación en la nube

junio 19, 2023

technology

Joannes Vermorel

La primera gran disrupción, tras el inicio del proyecto en 2008, fue el surgimiento de computación en la nube. La computación en la nube era un nuevo paradigma que había revolucionado la industria de la noche a la mañana. De la noche a la mañana, el antiguo HPC (computación de alto rendimiento) estaba muerto, y Lokad tuvo que adoptar a su sucesor. La computación en la nube representó el primer alejamiento radical de Lokad de lo que aún se puede considerar el software empresarial ‘convencional’. Aunque la mayoría de los proveedores de software empresarial hoy en día ofrece SaaS, casi ninguno ha adoptado un diseño cloud-native¹. La adopción de la computación en la nube fue impulsada por el trabajo pionero de Matthieu Durut, el segundo empleado de Lokad (el primer empleado de Lokad fue otro PhD).

Al igual que el trabajo de Benoit Petra, este manuscrito nunca había sido publicado anteriormente en el sitio web de Lokad. Me complace enmendar esa omisión hoy.

Autor: Matthieu Durut

Fecha: Septiembre 2012

Resumen:

Los temas abordados en esta tesis se inspiran en los problemas de investigación a los que se enfrenta la empresa Lokad. Estos problemas están relacionados con el desafío de diseñar técnicas de paralelización eficientes para algoritmos de clustering en una plataforma de computación en la nube. El Capítulo 2 ofrece una introducción a las tecnologías de computación en la nube, especialmente aquellas dedicadas a cálculos intensivos. El Capítulo 3 detalla más específicamente la oferta de computación en la nube de Microsoft: Windows Azure. El capítulo siguiente detalla aspectos técnicos del desarrollo de aplicaciones en la nube y ofrece algunos patrones de diseño para la nube. El Capítulo 5 está dedicado a la paralelización de un conocido algoritmo de clustering: el Batch K-Means. Proporciona información sobre los desafíos de una implementación en la nube del Batch K-Means distribuido, en especial el impacto de los costos de comunicación en la eficiencia de la implementación. Los Capítulos 6 y 7 están dedicados a la paralelización de otro algoritmo de clustering, la Vector Quantization (VQ). El Capítulo 6 ofrece un análisis de diferentes esquemas de paralelización para VQ y presenta las diversas aceleraciones en la convergencia que estos proporcionan. El Capítulo 7 ofrece una implementación en la nube de estos esquemas. Se destaca que es la naturaleza en línea de la técnica VQ la que permite una implementación en la nube asíncrona, la cual reduce drásticamente los costos de comunicación introducidos en el Capítulo 5.

Jurado:

Descargar la tesis (PDF)

Una prueba decisiva para evaluar si un proveedor tiene un diseño cloud-native es preguntarle si, como cliente, puedes pasar de cero a 10 terabytes en cuestión de horas sin necesidad de permiso del proveedor. La mayoría de los proveedores de software empresarial no operan con recursos compartidos; por lo tanto, se requiere una negociación previa para asegurar un grupo de recursos dedicados de tamaño adecuado. ↩︎

Regresar al Blog ›

Algoritmos de clasificación distribuidos en la computación en la nube

Más publicaciones