Ver más paneles

Tus redes sociales hablan por ti: web scraping

Cada actividad que realizamos online deja una huella. Ha surgido un negocio basado en extraer toda esa data y sistematizarla.

Viernes 17 de agosto del 2018

Cuando nos suscribimos a algún portal o nos registramos en algún servicio online, frecuentemente se nos permite hacerlo con nuestra cuenta de Facebook o Gmail, lo que nos evita llenar formularios de datos y confirmar desde nuestros correos electrónicos. Este ‘atajo’ no tiene la motivación exclusiva de ahorrarnos pasos y, por lo tanto, tiempo. Sucede que con el típico “iniciar sesión con Facebook” estamos autorizando a las páginas (que pueden ser desde Amazon hasta Netflix) a acceder a la información que tenemos almacenada en nuestras redes sociales. Eso es Scraping.

El web Scraping se compone de tres fases: descarga/extracción de datos, análisis y almacenamiento de los mismos. En esencia, es una forma de data mining que permite captar información proveniente del usuario final al que se pretende convertir en cliente. La data externa (extraída desde redes sociales) va al pre procesamiento, el cual consiste en la exploración de datos, extracción de características y reducción de datos. Estos datos sintetizados son los insumos para luego desarrollar el modelo predictivo que ayuda a las empresas a generar negocio : selección de algoritmo, optimización de parámetros y validación del modelo.

Esta técnica de extracción de data es potente en tanto el hacer Scraping de un grupo de sites da lugar a adelantar estudios de la información publicada: desde un simple inventario de palabras y frases más utilizadas, hasta un match de hábitos (viajes, restaurantes, entretenimiento, música) y fechas. Esta información permite a las empresas tomar decisiones más acertadas.

Cabe señalar que el uso de web Scraping no ha estado exento de polémica. De hecho, permanentemente se le hace a esta técnica el cuestionamiento sobre si constituye invasión a la privacidad o no. Sin embargo, al tratarse de información pública y de libre acceso en redes sociales y en sites, el debate no tiene un claro ganador. Al respecto, en agosto del 2017, Reuters informaba que un juez en EEUU había ordenado que Microsoft elimine ‘as soon as possible’ toda tecnología destinada a impedir que hiQ Labs obtenga datos públicos de LinkedIn a través de web Scraping.

LinkedIn es una de las redes sociales en que el web scraping se aplica de manera más frecuente. Principalmente entre Headhunters, se realiza Scraping en LinkedIn para extraer la información de una gran cantidad de perfiles que permita generar inventarios de candidatos según los criterios que se consideren relevantes: ubicación, edad, profesión, estudios, experiencia, habilidades, etc.

¿Tú qué uso le darías a esta técnica en tu negocio?

ESPACIO PATROCINADO