Publicado el 23 de Agosto del 2017
667 visualizaciones desde el 23 de Agosto del 2017
412,1 KB
32 paginas
TRABAJO DE INVESTIGACIÓN BIBLIOGRÁFICA:
MINERÍA DE DATOS
DEPARTAMENTO DE INFORMÁTICA
PROFESOR: MASTER DAVID LUIS LA RED MARTÍNEZ
ALUMNO: RAMÓN DAVID E. LEZCANO
OBJETIVOS
¤ Analizar y entender qué es la Minería de Datos.
¤ Cómo la Minería de Datos se relaciona con el KDD o descubrimiento de
conocimientos.
¤ Reconocer la problemática del análisis de grandes volúmenes de datos y de los
beneficios de su uso sistemático para la obtención de modelos y patrones predictivos o
descriptivos.
¤ Diferenciar entre Estadística y Minería de Datos.
¤ Conocer las aplicaciones habituales de la Minería de Datos.
¤ Conocer por qué su importancia hoy en día.
¤ Conocer la relación de la Minería de Datos con otras disciplinas.
INTRODUCCIÓN
La medición del software está adquiriendo una gran importancia debido a que cada vez es
mayor la necesidad de obtener datos objetivos que permitan evaluar, predecir y mejorar la
calidad del software, así como el tiempo y coste de desarrollo del mismo.
Asimismo, en los últimos años se ha visto un gran crecimiento en la capacidad de
generación y almacenamiento de información, debido a la creciente automatización de
procesos y los avances en las capacidades de almacenamiento de información. Gran parte
de esa información es histórica, es decir, representa transacciones o situaciones que se han
producido. Aparte de su función de “Memoria de la Organización”, la información ésta
histórica, es útil para predecir información futura, ya que la mayoría de las decisiones de
empresas, organizaciones e instituciones se basan en información de experiencias pasadas,
extraídas de fuentes muy diversas.
Desgraciadamente, no se ha visto un desarrollo equivalente en las técnicas de análisis de
información, por lo que existe la necesidad de una nueva generación de técnicas y
herramientas computacionales con la capacidad de asistir a usuarios en el análisis
automático e inteligente de datos. El procesar automáticamente grandes cantidades de datos
para encontrar conocimiento útil para un usuario y satisfacerle sus metas, es el objetivo
principal del área de Descubrimiento de Conocimiento en Bases de Datos o KDD
(Knowledge Discovery from Data base). Este es el campo que está evolucionando para
proporcionar soluciones al análisis automatizado, al que también podemos definirlo como:
Un proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y en
última instancia comprensible a partir de datos o como la extracción no trivial de
información implícita, desconocida, y potencialmente útil de los datos.
Es muy importante comprender al KDD, ya que el tema que vamos a tocar (Minería de
Datos), no es más que una fase del mismo, fase que integra los métodos de aprendizaje y
estadísticas para obtener hipótesis de patrones y modelos, además por que las técnicas de
minería de datos surgen como las mejores herramientas para realizar exploraciones más
profundas y extraer información nueva, útil y no trivial que se encuentra oculta en grandes
volúmenes de datos. Es importante también aclarar que vulgarmente se asimila a KDD con
Minería de Datos.
MINERÍA DE DATOS (DM). DESCUBRIMIENTO DE
CONOCIMIENTOS (KD)
Se puede decir que un sistema Data Mining es una tecnología soporte para usuario final
cuyo objetivo es extraer conocimiento útil y utilizable a partir de la información contenida
en bases de datos; también se llama minería de datos (data mining) al análisis de archivos y
bitácoras de transacciones que sean útiles para la toma de decisiones. La especie humana
posee habilidades extremadamente sofisticadas para detectar patrones y descubrir
tendencias. Por tal motivo una imagen nos dice más que mil palabras y una gráfica nos
permite, de una mirada, identificar tendencias en el tiempo o relaciones entre dos
mediciones de un fenómeno. Por otro lado, no es claro que nuestras habilidades puedan
realizar, con la misma eficiencia, la tarea de analizar los trillones de datos almacenados
electrónicamente al monitorear las transacciones comerciales de una base de datos.
Dada de la tecnología actual, resulta más o menos sencillo coleccionar grandes volúmenes
de información. Con el uso de lectura óptica y código de barras, las cadenas de
supermercados pueden fácilmente coleccionar la información de cada canasta de compra, es
decir, cual es el conjunto de artículos que el cliente compra. Un concepto similar es el
estado de cuenta mensual de una tarjeta de crédito en el que se describe un conjunto de
artículos que el cliente adquirió ese mes. De igual manera, gobiernos, instituciones públicas
y privadas, están en la posibilidad de juntar millones y millones de datos de actividades
individuales que contienen información altamente detallada sobre montos, fechas, horas,
lugares, productos y servicios.
Esta información cruda es tan voluminosa que resulta inútil, pues no aporta conocimiento o
fundamento para la toma de decisiones. El resumir datos para la toma de decisiones ha sido
el campo tradicional de la estadística pero hoy en día existen nuevas técnicas, una de ella es
la Minería de Datos, la que revela patrones o asociaciones que usualmente nos eran
desconocidas y se le ha llamado también descubrimiento de conocimiento (KD Knowledge
Discovery).
El descubrir patrones o relaciones útiles en una colección de datos ha recibido
tradicionalmente muchos nombres. El término data mining llegó incluso a ser muy
desprestigiado en la estadística, pues representaba “masajear” suficientemente los datos
hasta que los mismos confirmasen lo que uno quería postular. En ese sentido, la minería de
datos es un proceso que invierte la dinámica del método científico en el siguiente sentido.
(cuidando cuáles son
En el método científico, primero se formulan las hipótesis y luego se diseña el experimento
para coleccionar los datos que confirmen o refuten la hipótesis. Si esto se hace con la
formalidad adecuada
las variables controladas y cuáles
experimentales), se obtiene un nuevo conocimiento.
En la minería de datos, se coleccionan los datos y esperamos que de ellos emerjan
hipótesis.
Al hablar de descubrimiento de conocimientos en base de datos decimos que es un
proceso de extracción no trivial para identificar patrones que sean válidos, novedosos,
potencialmente útiles y entendibles, a partir de datos.
• Proceso: KDD involucra varios pasos y es interactivo, al encontrar información útil
en los datos, se realizan mejores preguntas.
• Válido: se utilizan principalmente los datos y se espera que los patrones puedan
aplicarse en el futuro.
• Novedoso: desconocido con anterioridad.
• Útil: aplicable y cumpliendo las metas del usuario.
• Entendible: que nos lleve a la comprensión, muchas veces medido por el tamaño.
El proceso de KDD consis
Comentarios de: Minería de Datos (0)
No hay comentarios