JOURNAL ARTICLE

Detección de anomalías en grandes volúmenes de datos

Omar Torres-DomínguezSamuel Sabater-FernándezLisandra Bravo IlisástiguiDiana Martín RodríguezMilton García-Borroto

Year: 2018 Journal:   Revista Facultad de Ingeniería Vol: 28 (50)Pages: 62-76   Publisher: Pedagogical and Technological University of Colombia

Abstract

El desarrollo de la era digital ha traído como consecuencia un incremento considerable de los volúmenes de datos. A estos grandes volúmenes de datos se les ha denominado big data ya que exceden la capacidad de procesamiento de sistemas de bases de datos convencionales. Diversos sectores consideran varias oportunidades y aplicaciones en la detección de anomalías en problemas de big data. Para realizar este tipo de análisis puede resultar muy útil el empleo de técnicas de minería de datos porque permiten extraer patrones y relaciones desde grandes cantidades de datos. El procesamiento y análisis de estos volúmenes de datos, necesitan de herramientas capaces de procesarlos como Apache Spark y Hadoop. Estas herramientas no cuentan con algoritmos específicos para la detección de anomalías. El objetivo del trabajo es presentar un nuevo algoritmo para la detección de anomalías basado en vecindad para de problemas big data. A partir de un estudio comparativo se seleccionó el algoritmo KNNW por sus resultados, con el fin de diseñar una variante big data. La implementación del algoritmo big data se realizó en la herramienta Apache Spark, utilizando el paradigma de programación paralela MapReduce. Posteriormente se realizaron diferentes experimentos para analizar el comportamiento del algoritmo con distintas configuraciones. Dentro de los experimentos se compararon los tiempos de ejecución y calidad de los resultados entre la variante secuencial y la variante big data. La variante big data obtuvo mejores resultados con diferencia significativa. Logrando que la variante big data, KNNW-BigData, pueda procesar grandes volúmenes de datos.

Keywords:
Humanities Computer science Physics Philosophy

Metrics

3
Cited By
0.48
FWCI (Field Weighted Citation Impact)
14
Refs
0.70
Citation Normalized Percentile
Is in top 1%
Is in top 10%

Citation History

Topics

Scientific Research and Technology
Physical Sciences →  Computer Science →  Computer Science Applications
Business, Innovation, and Economy
Social Sciences →  Economics, Econometrics and Finance →  Economics and Econometrics
Knowledge Societies in the 21st Century
Social Sciences →  Social Sciences →  Demography
© 2026 ScienceGate Book Chapters — All rights reserved.