Datos estructurados VS a datos no estructurados

nov2

¿Cuál es la diferencia entre datos estructurados y no estructurados? Para muchas empresas y organizaciones, estas distinciones pueden parecer que pertenecen únicamente al departamento de TI que se ocupa de los grandes datos. Y aunque hay algo de verdad en ello, vale la pena que todos entiendan la diferencia, porque una vez que se comprende la definición de datos estructurados y datos no estructurados (junto con dónde viven esos datos y cómo procesarlos), es posible ver cómo se puede utilizar esto para mejorar cualquier proceso basado en datos.

Y en la actualidad, casi cualquier flujo de trabajo en cualquier departamento está basado en datos.

Ventas, marketing, comunicaciones, operaciones, recursos humanos, todo esto produce datos. Incluso la más pequeña de las pequeñas empresas -digamos, una tienda de ladrillo y mortero con inventario físico y una base de clientes locales- produce datos estructurados y no estructurados de cosas como el correo electrónico, las transacciones con tarjetas de crédito, las compras de inventario y los medios de comunicación social. Por lo tanto, aprovecharse de esto viene a través de la comprensión de los dos, y cómo trabajan juntos.

¿Qué son los datos estructurados?

Los datos estructurados son datos que utilizan un formato predefinido y esperado. Esto puede provenir de muchas fuentes diferentes, pero el factor común es que los campos son fijos, al igual que la forma en que se almacenan (por lo tanto, estructurados). Este modelo de datos predeterminado permite una fácil entrada, consulta y análisis. Aquí hay dos ejemplos para ilustrar este punto.

Primero, considere los datos transaccionales de una compra en línea. En estos datos, cada registro tendrá una marca de tiempo, cantidad de compra, información de cuenta asociada (o cuenta de invitado), artículo(s) comprado(s), información de pago y número de confirmación. Dado que cada campo tiene un propósito definido, facilita la consulta manual (el equivalente a pulsar CTRL+F en una hoja de cálculo de Excel) y también facilita a los algoritmos de aprendizaje automático la identificación de patrones y, en muchos casos, la identificación de anomalías fuera de esos patrones.

Otro ejemplo son los datos procedentes de un dispositivo médico. Algo tan simple como un medidor de ECG de hospital representa datos estructurados en dos campos clave: la actividad eléctrica del corazón de una persona y la marca de tiempo asociada. Estos dos campos están predefinidos y encajarían fácilmente en una base de datos relacional o tabular; los algoritmos de aprendizaje automático podrían identificar fácilmente patrones y anomalías con sólo unos minutos de registros.

A pesar de la gran diferencia en complejidad técnica entre estos ejemplos, se muestra claramente que los datos estructurados se desglosan utilizando elementos establecidos y esperados. Las marcas de tiempo llegarán en un formato definido; no transmitirán (o no pueden transmitir) una marca de tiempo descrita en palabras porque eso está fuera de la estructura. Un formato predefinido permite una fácil escalabilidad y procesamiento, incluso si se maneja a nivel manual.

Los datos estructurados pueden utilizarse para cualquier cosa, siempre y cuando la fuente defina la estructura. Algunos de los usos más comunes en los negocios incluyen formularios CRM, transacciones en línea, datos de acciones, datos de monitoreo de la red corporativa y formularios de sitios web.

¿Qué son los datos no estructurados?

Los datos estructurados vienen con definición. Por lo tanto, los datos no estructurados son lo contrario. En lugar de campos predefinidos en un formato específico, los datos no estructurados pueden venir en todas las formas y tamaños. Aunque normalmente es texto (como un campo de texto abierto en un formulario), los datos no estructurados pueden venir en muchas formas para ser almacenados como objetos: imágenes, audio, vídeo, archivos de documentos y otros formatos de archivo. El punto en común con todos los tipos de datos no estructurados vuelve a la idea de falta de definición. Los datos no estructurados están disponibles con mayor frecuencia (más sobre lo que se indica a continuación) y es posible que los campos no tengan el mismo carácter o los mismos límites de espacio que los datos estructurados. Dada la amplia gama de formatos que comprenden los datos no estructurados, no es de extrañar que este tipo represente aproximadamente el 80% de los datos de una organización.

Veamos algunos ejemplos de datos no estructurados.

En primer lugar, los posts sociales de una empresa son un ejemplo específico de datos no estructurados. Las métricas detrás de cada uno de los medios sociales post-gustos, comparte, puntos de vista, hashtags, y así sucesivamente, están estructuradas, en el sentido de que están predefinidas y tienen un propósito para cada mensaje. Sin embargo, los puestos reales no están estructurados. El archivo de mensajes en un repositorio, pero buscar o relacionar los mensajes con métricas u otros datos requiere esfuerzo. No hay manera de saber lo que cada mensaje contiene específicamente sin examinarlo realmente, ya sea servicio al cliente o promoción o una actualización de noticias de la organización. Compare esto con los datos estructurados, donde el propósito de los campos (por ejemplo, fechas, nombres, coordenadas geoespaciales) es claro.

Un segundo ejemplo viene de los archivos multimedia. Algo así como un podcast no tiene estructura en su contenido. Buscar el archivo MP3 del podcast no es fácil por defecto; los metadatos como el nombre del archivo, la hora y las etiquetas asignadas manualmente pueden ayudar a la búsqueda, pero el archivo de audio en sí carece de contexto sin análisis o relaciones adicionales.

Otro ejemplo viene de los archivos de vídeo. Los activos de vídeo están en todas partes en estos días, desde clips cortos en los medios sociales hasta archivos más grandes que muestran seminarios web completos o debates. Al igual que con los archivos MP3 podcast, el contenido de estos datos carece de especificidad fuera de los metadatos. Simplemente no puede buscar un archivo de vídeo específico basándose en su contenido real en la base de datos.

¿Cómo trabajan juntos?

En el mundo empresarial actual, los datos estructurados y no estructurados tienden a ir de la mano. Para la mayoría de los casos, el uso de ambos es una buena manera de desarrollar la perspicacia. Volvamos al ejemplo de los mensajes en los medios sociales de una empresa, específicamente los mensajes con algún tipo de archivo adjunto. ¿Cómo puede una organización desarrollar perspectivas sobre el compromiso de marketing?
En primer lugar, utilice datos estructurados para clasificar los mensajes de los medios de comunicación social según el grado de compromiso más alto y, a continuación, filtre los hashtags que no estén relacionados con el marketing (por ejemplo, elimine cualquier mensaje de alto compromiso con un hashtag relacionado con el servicio al cliente). A partir de ahí, los datos no estructurados relacionados pueden ser examinados -el contenido real de los mensajes, el tipo de medio, el tono y otros elementos que pueden dar una idea de por qué el mensaje generó compromiso.

Esto puede sonar como si se tratara de mucho trabajo manual, y eso fue cierto hace varios años. Sin embargo, los avances en el aprendizaje automático y la inteligencia artificial están permitiendo niveles de automatización. Por ejemplo, si los archivos de audio se ejecutan a través del procesamiento en lenguaje natural para crear una salida de voz a texto, entonces el texto puede ser analizado en busca de patrones de palabras clave o mensajes positivos/negativos. Estos conocimientos se agilizan gracias a las herramientas de vanguardia, que cada vez son más importantes debido al hecho de que los grandes datos son cada vez más grandes y que la mayoría de esos grandes datos no están estructurados.

De dónde provienen los datos y a dónde van

En el mundo de los negocios de hoy, los datos provienen de múltiples fuentes. Veamos una empresa mediana con una configuración estándar de comercio electrónico. En este caso, es probable que los datos provengan de las siguientes áreas:

• Operaciones de deudor
• Datos de cuenta de deudor
• Formularios de comentarios de los clientes
• Compra de inventario
• Seguimiento logístico
• Compromiso con los medios de comunicación social
• Compromiso de difusión de marketing
• Datos internos de HR
• Motor de búsqueda que rastrea las palabras clave
• Y mucho más

De hecho, la cantidad de datos que saca cualquier compañía en estos días es asombrosa. No hace falta ser una de las mayores empresas del mundo para formar parte de la gran revolución de los datos. Pero la forma en que se manejan esos datos es clave para poder utilizarlos. La mejor solución en muchos casos es un lago de datos.

Los lagos de datos son repositorios que reciben datos estructurados y no estructurados. La capacidad de consolidar múltiples entradas de datos en una sola fuente hace que los lagos de datos sean una parte esencial de cualquier infraestructura de datos de gran tamaño. Cuando los datos entran en un lago de datos, se elimina cualquier estructura inherente para que sean datos sin procesar, lo que los hace fácilmente escalables y flexibles. Cuando se leen y procesan los datos, se le da la estructura y el esquema necesarios, equilibrando el volumen y la eficiencia.

La eficiencia en el almacenamiento es clave porque la escalabilidad y la flexibilidad permiten incluir más fuentes de datos y más aplicaciones de herramientas de vanguardia como el aprendizaje automático. Esto significa que la base para recibir datos estructurados y no estructurados debe construirse para el presente y el futuro, y el consenso de la industria apunta a trasladar los datos a la nube.

Fuente
Oracle

Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on email
Share on print

¿Quieres conocer más de nuestras Soluciones?