No, si ya verás tú como…

Tecnología, programación, negocio, música, literatura, …

Nube de etiquetas como punto de partida

A veces, por la naturaleza de mi trabaj, me veo en la necesidad de absorber y asimilar mucha información completamente nueva sin tiempo para distinguir fuentes o autores de manera exhaustiva. Dando por sentado que eso no va a ser posible, la cuestión se centra en minimizar los efectos negativos del poco tiempo. Se hace necesario filtrar qué documentos son útiles, donde buscar (¡y dónde ni mirar!) y sobre todo descartar conceptos que no sean relevantes. Como ejercicio del uso de tecnología sencilla y automatización, os voy a comentaromo realizar una nube de etiquetas a partir de posible documentación que tengáis a mano en formato digital.

Una nube de etiquetas da una información visual rápida de los conceptos más repetidos o relevantes en un texto. Puede tener varios usos interesantes:

  • El primero y más obvio, para tener una visual de los conceptos que se manejan en la documentación que tenemos.
  • Muchas veces nuestro cliente tampoco conoce qué conceptos hay. Una nube de etiquetas o un histograma de conceptos nos ayudarán a presentarle de manera estética y útil qué conceptos debería trabajar.
  • Filtrando los datos de entrada (los textos de referencia) por fechas, ámbitos, empresas, etc., podemos conseguir un conjunto de nubes o histogramas que representan la evolución en el tiempo de los conceptos implicados. En este caso no me detendré en esto, pero adelanto que es muy interesante, sobre todo a la hora de presentar o de predecir tendencias para tomar decisiones.

Muchos podrán decir que una nube de etiquetas no deja de ser algo visual y que no tiene información analítica. No voy a entrar en el debate de algo tan relativo; si se quiere algo puramente analítico, se puede generar un histograma de conceptos y truncar a partir del concepto 10, 15, 20 más repetido. La cuestión aquí es, ¿qué preferirá el cliente como resultado fácilmente entendible? Y si el resultado es para uso propio, como paso intermedio, ¿qué necesitamos? ¿Una referencia visual y estética o fría y analítica? Una nube de etiquetas no deja de ser un histograma ajustado del conjunto de palabras de entrada, así que cada uno tome la decisión que crea más apropiada.

Proceso

En el ejemplo que os voy a comentar voy a buscar referencias sobre la Gestión de Riesgo y Oportunidades. Los pasos esenciales son:

  1. Recopilar documentación ‘forzosa’. Suelen ser los documentos que proporciona el cliente o los que tomamos como origen de la inquietud para buscar más información.
  2. Realizar búsquedas iniciales a partir de conceptos “evidentes”. En nuestro caso, la búsqueda en inglés correspondiente (“Risk & Opportunity Management”) nos asocia varias palabras o frases concretas: R&O, risk minimization, opportunity assesment, etc.
  3. Con esas búsquedas, recopilamos documentos publicados en Internet o que tengamos en biblioteca propia. Tampoco hay que volverse loco con esto. En el ejemplo voy a trabajar con 11 PDFs, entre informes y presentaciones. Debemos tener páginas totales suficientes como para que la estadística sea representativa pero dentro de un margen que nos permita leer toda la información en un tiempo razonable una vez tengamos decidido como realizar el trabajo. Yo suelo llevarme todos los documentos a Calibre y, desde allí, realizando búsquedas y filtrados, exporto a disco los documentos que salgan. De esta manera puede pasar que encontremos documentos antiguos que ni recordábamos pero que son útiles.
  4. Posiblemente estos documentos estén en dos formatos principalmente: PDF o procesador de textos. En caso de procesadores de texto, podemos guardar nuestro documento como
    texto plano siempre. En caso de PDFs, tendremos que extraer el texto. NitroPDF lo hace, por ejemplo, aunque podemos buscar otros procesadores o librerias de PDF que lo hagan en procesos por lotes.
  5. Convertimos todos los documentos en archivos de texto plano. No es necesario que estos archivos tengan una coherencia o una presencia especiales, ya que se van a usar como meras entradas en crudo para contar elementos.
  6. Unimos todos los archivos de texto. La manera más sencilla consiste en abrir una consola de sistema y hacer un copy *.txt Resumen.txt. Esto nos genera un archivo de texto con todos los que hubiera, concatenándolos.
  7. Ya tenemos un archivo Resumen.txt que podemos procesar. El proceso que vamos a aplicar es una forma de scraping, es decir, extraer datos sistemáticos de una fuente pensada para ser legible por un ser humano. En este caso se cuentan las ocurrencias de cada palabra en el texto y esas ocurrencias se usan para determinar el tamaño final de cada palabra en la imagen de la nube. Un ejemplo online para obtener una nube de datos es Wordle, aunque hay otros.

Resultado

Tras procesar 11 archivos PDF buscados sobre Risk & Opportunity Management y obtener un Resumen.txt de algo menos de 800Kb, Wordle nos ofrece este resultado (retocadito en los colores y demás desde la propia web):

Nube de etiquetas para R&O

 

Cada uno que le de la utilidad que considere oportuna. A unas malas, ¿no es bonito?

Anuncios

Navegación en la entrada única

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: