*Consejos para realizar investigaciones o visualizaciones a partir de series de datos o datasets.

“But we don’t report on data itself.
We report on reality, and we must assess
how accurate a model of reality the data is”
Jacob Harris

Mucho se habla de los “datos” como verdades absolutas y poco de ellos como información susceptible de sesgos como cualquier otra. A partir de ellos se erigen complejas investigaciones periodísticas, de mercado y académicas que a su vez impactan en la opinión pública en diferentes niveles.  Sin embargo vale la pena preguntarse si esos datos han sido objeto de un cuidadoso proceso de control que garantice la calidad del producto final. Este post va en dos direcciones, por un lado como una invitación a la mirada crítica de los datos y no asumirlos como verdades incontrovertibles, y por otro como una guía para trabajar con ellos y hacerlos capaces de enfrentar lo anterior. A continuación algunos consejos generales:

objetivo11. DETERMINA EL OBJETIVO. Hay dos formas de encontrarse con los datos. La más frecuente es trabajar en un tema y tener que “buscar los datos” que lo respalden, es decir la forma tradicional de investigar. La segunda es la que devino con la acumulación de información que produjo la web y que nos enfrenta a enormes datasets susceptibles de ser analizados. La diferencia es que en el primer caso, el objetivo de investigación es por lo general bastante claro, una suposición que requiere ser constatada o refutada. En el segundo caso, la operación se invierte y muchas veces se trata de leer los datos y buscar en ellos la historia: lo que dicen o pueden decir sobre un tema u otro. Este cambio de sentido, ocasiona -en mi opinión- una de las fallas más frecuentes: la falta de claridad en el objetivo. Como es lógico este paso determina el proceso, sin embargo es frecuente encontrarse con trabajos, informes o noticias que presentan bases de datos, visualizaciones o conclusiones donde es difícil comprender qué pretendía el autor, o lo que es peor qué utilidad práctica posee. Cuando un dataset ofrezca muchas posibilidades, elige una, hay cosas importantes pero entre todas ellas hay una más importante. Prioriza.

interpreta

2. INTERPRETA LOS DATOS.Los datasets por lo general viene acompañados de una ficha que ayuda a su comprensión, data dictionaries, codebook o ficha simplemente son algunos de los nombres que se le asignan. En ella se encuentra información muy valiosa respecto a la significación de los datos, sus relaciones y la forma como fueron recolectados. En otras palabras es una descripción necesaria de los datos que abren la puerta a su interpretación y constituye una gran herramienta para empezar una investigación. Aprovechar su información garantiza que se cumplan los objetivos de la recolección de los datos y contribuyen a la formación del criterio.

variables3. COMPRENDE LAS VARIABLES.Un dataset no es otra cosa que una serie de observaciones (variables) sobre ciertas unidades (individuos por ejemplo) que pueden ser expresadas de modo cualitativo o cuantitativo. De modo que su entendimiento, implica la comprensión de tales variables y de su significado. Toda exploración complementaria que podamos hacer respecto a estas, ampliará las posibilidades de los datos y sobre todo de su potencialidad. Cumplida esta tarea, es muy probable que sea mucho más fácil poder trazar relaciones entre ellas, lo que en estadística se denomina “correlación” entre variables y en donde radica la riqueza de los datos: las inferencias que puedan realizarse a partir de ellas, para comprobar o refutar una sospecha. A mayor número de variables mas complejidad del dataset, por eso es común “simplificarlo”, a través de la selección de determinadas variables.

metadatos

4. NO OLVIDES EVALUAR LOS METADATOS. Abordar los datos, requiere un control absoluto sobre la forma como esos datos fueron obtenidos. Es decir, dónde, cómo, cuando, por qué y por quién fueron recolectados; es un deber del analista y sobre todo una herrramienta fundamental a la hora de evaluar los posibles sesgos y fallas de la información. Sopesarlos oportunamente, permite corregir errores por otras fuentes y reflejar la realidad con mayor precisión. Los datos no son perfectos y es necesario hacer una análisis general de la situación, por ejemplo: ¿es posible que haya duplicación de datos?, ¿cuáles fueron las condiciones de la recolección de datos?. Cuando los datos reflejan un patrón anormal, es preciso hacer un zoom analítico, y evaluar con detalle, porque seguramente detrás habrá una historia que contar.

Como caso de análisis les recomiendo el artículo Working with Wikileaks de Jacob Harris, arquitecto de información del New York Times y que relata con detalle el proceso de análisis de los datos que fundamentaron las siguientes notas relacionadas con la violencia sectaria durante la ocupación americana en Baghdad: 

Mix of Trust and Despair Helped Turn Tide in Iraq y la visualizacióA Deadly DayIn Baghdad.

Además les comparto el link de un libro para descargar (pdf completo) de Darrell Huff & Irving Geis que es un clásico en el medio y merece la pena ser leído por todos aquellos que trabajen en el delicado oficio de formar la opinión pública:

“Cómo mentir con estadísticas”

Un pensamiento en “*Consejos para realizar investigaciones o visualizaciones a partir de series de datos o datasets.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s