Adecuación a metodología de minería de datos para aplicar a problemas no supervisados tipo atributo-valor

  • Lic. Ciro Rodríguez León Universidad de Cienfuegos
  • Dra. C. María Matilde García Lorenzo Universidad Central de Las Villas. Santa Clara

Resumen

Debido a que la cantidad de datos almacenados, de todo tipo, van en aumento exponencial, existe la necesidad de tener mecanismos eficientes para manipularlos y extraer conocimientos de ellos. La minería de datos es de las principales encargadas de este tipo de proceso y para hacer menos complejos sus procedimientos se han diseñado metodologías que los guíen. Debido a que estas metodologías son de propósito general en ellas no se describen cuestiones importantes como técnicas y algoritmos a usar en cada etapa. En la presente investigación, luego de un estudio comparativo, se escoge la metodología CRISP-DM para realizar su adecuación a problemas no supervisados tipo atributo-valor. De esta forma, reduciendo el dominio de aplicación, se logra llegar a un nivel de especificación más profundo en cada una de las seis fases que son propuestas originalmente, se ahorra así tiempo a los especialistas que se propongan realizar este tipo de actividad. Para demostrar el uso de esta adecuación y sus resultados acertados, es aplicada a un caso de estudio real, consistente en un grupo de pacientes diabéticos tipo 2, se obtienen resultados satisfactorios luego de hacer un análisis independiente por sexo. Los grupos encontrados representan diferentes niveles de riesgo en la evolución de la enfermedad, los que mejoran su proceso de prevención y diagnóstico.

Palabras clave:

Minería de datos, CRISP-DM, agrupamiento, índices de validación, diabetes.

 

ABSTRACT

The amount of any kind of stored data is going in an exponential increment. That is why it is needed to create efficient procedures to manipulate this data and extract knowledge from them. Data mining is in charge of this type of process and to make their procedures less complex. Methodologies have been designed to guide them. As these methodologies are general they do not describe important issues as techniques and algorithms to be used in each period. In the present research, after a comparative study, CRISP-DM methodology is selected to be adapted to un-supervised problems type attribute-value. In this way, by reducing the application domain, it is achieved a deeper specification level in each of the six phases which were originally proposed, so time of specialists with the purpose of doing this kind of activity,is saved. To demonstrate the use of this adaptation and its successful results, it is applied to a real case study, consisting in a group of type 2 diabetic patients in which satisfactory results are achieved after an independent analysis by sex. The groups found represent different levels of risk factors in the disease evolution who improve their prevention process and diagnosis.

Keywords:

Data mining, CRISP-DM, clustering, validation index, diabetes.

Publicado
2017-01-03
Cómo citar
Rodríguez León, L. C., & García Lorenzo, D. C. M. (2017). Adecuación a metodología de minería de datos para aplicar a problemas no supervisados tipo atributo-valor. Universidad Y Sociedad, 8(4). Recuperado a partir de https://rus.ucf.edu.cu/index.php/rus/article/view/454