K-means based method for handling unlabeled data

Authors

Abstract

From the development achieved by the current information society, incalculable volumes of data are generated. The exponential growth of information significantly supports people's decision mak-ing in their daily activities. In Ecuador there are many institutions that store the data of their pro-cesses, the tourism sector representing an example of this. However, the data generated exceeds the power of analysis and processing of human beings, sometimes relevant information is present-ed that is not visible to people. The present investigation proposes a solution to the described prob-lem starting from the development of a method for the treatment of unlabeled data.The proposed method is based on the unsupervised k-means algorithm. The proposal has been implemented from the stored data set of the tourism sector in the City of Riobamba.

Keywords:

Machine learning, data mining, roughsets, entropy, information gain.

 

ABSTRACT

A partir del desarrollo alcanzado por la actual sociedad de la información, se generan volúmenes incalculables de datos. El crecimiento exponencial de la información apoya significativamente la to-ma de decisiones de las personas en sus actividades cotidianas. En el Ecuador existen muchas insti-tuciones que almacenan los datos de sus procesos, el sector turístico representa un ejemplo de ello. Sin embargo, los datos generados superan el poder de análisis y procesamiento del ser hu-mano, en ocasiones se presenta información relevante que no es visible para las personas. La pre-sente investigación propone una solución al problema descrito a partir del desarrollo de un método para el tratamiento de datos no etiquetados, basado en el algoritmo no supervisado de k-means. La propuesta ha sido implementada a partir del conjunto de datos almacenados del sector turístico de la ciudad de Riobamba.

Palabras clave:

Aprendizaje automático, minería de datos, roughsets, entropía, ganancia de información.

Published

2021-12-01

How to Cite

Álvarez Gómez, S. D., Machuca Vivar, S. A., & Salas Medina, P. E. (2021). K-means based method for handling unlabeled data. Universidad Y Sociedad, 13(S3), 452–458. Retrieved from https://rus.ucf.edu.cu/index.php/rus/article/view/2504

Most read articles by the same author(s)

1 2 > >>