Tecnología

¿Sabes qué es la minería de datos?

mineria de datos
arturomata
Bloguero arturomata

“La minería de datos o exploración de datos (es la etapa de análisis de “Knowledge Discovery in Databases” o KDD) es un campo de la estadística y las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos”. Oded Maimon and Lior Rokach (2010)

Por definición, la industria de los productos básicos siempre ha sido un gran negocio de datos. Las operaciones físicas que están cubiertas con derivados financieros crean miles de puntos de datos individuales. Y cada uno de esos puntos de datos representan múltiples decisiones que se toman y tal vez reconsiderado antes de que el comercio se cierre con el tiempo. Los precios se mueven, los mercados cambian y las regulaciones se actualizan.

Todos estos datos impulsan la complejidad en la toma de decisiones. Aquellas compañías que están mejor equipadas para aprovechar los datos disponibles para tomar las mejores decisiones ganarán una ventaja competitiva.

Ya no es adecuado el sistema de software de comercio de productos básicos y gestión de riesgos o commodity trading software and risk management (CTSRM) adecuado para las empresas expuestas al riesgo del mercado de materias primas.

Aunque la capacidad de capturar los datos que rodea cada transacción o compromiso sigue siendo necesaria en el CTSRM, esa funcionalidad por sí sola no es suficiente. A medida que los márgenes se aprietan y las condiciones se endurecen, estos sistemas necesitan hacer más.

Hay cuatro tipos de tareas que normalmente se involucran en la minería de datos:

  • Clasificación – Consiste en generalizar una estructura familiar para utilizarla en los nuevos datos
  • Agrupamiento – Se trata de encontrar grupos y estructuras en los datos que son de alguna manera u otra lo mismo, sin necesidad de utilizar las estructuras observadas en los datos.
  • Aprendizaje de reglas de asociación– Busca relaciones entre las variables.
  • Regresión – Su objetivo es encontrar una función que modele los datos con el menor error.

Para aquellos que están buscando algunas herramientas de minería de datos, aquí están cuatro de las mejores herramientas de software de código abierto para minería de datos que puedes obtener de forma gratuita:

  • Orange aprendizaje de máquinas y visualización de datos para principiantes y expertos. Flujos de trabajo interactivos de análisis de datos con una gran caja de herramientas.
  • Weka es una colección de algoritmos de aprendizaje automático para tareas de minería de datos. Los algoritmos pueden ser aplicados directamente a un conjunto de datos o llamados desde su propio código Java.
  • JHepWork es un framework para análisis de datos que fue creado como un intento de hacer un entorno de análisis de datos usando paquetes de código abierto con una interfaz de usuario comprensible y para crear una herramienta competitiva a los programas comerciales.
  • Kanime es una solución para la innovación basada en datos, diseñada para descubrir el potencial oculto en los datos, la minería para obtener nuevas ideas o predecir nuevos futuros.

Técnicas

La Minería de Datos utiliza una serie de técnicas de distintos campos, principalmente de Inteligencia Artificial, pero muchas veces también se ayuda de técnicas estadísticas para la obtención de unos resultados más óptimos.

Ejemplo de minería de datos

Los hábitos de compra en los supermercados

Se relaciona con la detección de los hábitos de compra de los clientes en los supermercados en determinados días en donde se evaluará qué productos consumen para focalizar la venta en ese punto.

Los fraudes

Se trata de la detección de las transacciones que provengan del blanqueo de dinero o del fraude de las tarjetas de crédito o servicios de telefonía móvil.

El comportamiento por Internet

Consiste en el análisis del comportamiento de los visitantes a un determinado sitio, los cuales pueden ser clientes potenciales de los productos y servicios que ofrezcan en la página.

El terrorismo

La minería de datos permite la identificación de las actividades relacionadas con el terrorismo en determinados países como es el caso de los Estados Unidos.

Los Juegos

Consiste en el análisis y extracción de estrategias utilizadas por las personas en determinados juegos.

La ciencia y la ingeniería

Se trata de la utilización de la minería de datos en áreas relacionadas con la ciencia y la ingeniería como es el caso de la genética humana para comprender más sobre el ADN de las personas, la ingeniería eléctrica que permite monitorear las condiciones de las instalaciones de alta tensión, el análisis de los gases disueltos en los transformadores eléctricos, entre otras aplicaciones.

Qué es Web Minning ???

Es una metodología para extraer información de páginas webs a través de técnicas de minería de datos. La información se extrae del contenido de las páginas, de sus enlaces y de los registros de navegación de los usuarios. La minería Web se puede dividir en:

  • Minería de uso web, analiza a los datos obtenidos del uso y navegación de las distintas páginas webs
  • Web content mining, se refiere al proceso de descubrimiento de información útil a través de texto y contenido multimedia como imágenes, audio o vídeo
  • Estructura de la minera web, hace referencia a la extracción de patrones a través de hipervínculos mientras la segunda se refiere a la estructura del documento.

Con el crecimiento de datos no estructurados de la web, campos de comentarios, libros, correo electrónico, PDF, audio y otras fuentes de texto, la adopción de la minería de texto como una disciplina relacionada con la minería de datos también ha crecido significativamente. Necesita la capacidad de analizar, filtrar y transformar con éxito datos no estructurados con el fin de incluirlo en modelos predictivos para mejorar la precisión de la predicción.

Al final, no se debe considerar la minería de datos como una entidad autónoma separada, ya que el procesamiento previo (preparación de datos, exploración de datos) y post-procesamiento (validación de modelos, puntuación, monitoreo del desempeño del modelo) son igualmente esenciales.

Acerca del bloguero

arturomata

arturomata

Programador web, Co-fundador de @Socialnet21 y @tudiscoweb, entusiasta de las tecnologías libres.