Las técnicas de screen scrapping y web scrapping son poderosas aliadas de las tiendas de eCommerce, pues proporcionan una forma rápida de recopilar y comparar precios o contenidos de otros sitios de Internet, ya sean proveedores o competidores. Esto es más importante cuantos más productos haya en una tienda y cuanto más completa se quiera publicar la información. O analizar a la competencia.

Es normal en estas tiendas que las tareas habituales de mantenimiento queden fuera del alcance «manual» si lo gestiona un reducido grupo de personas, como puede ser en el caso de las tiendas con grandes inventarios (imaginemos una tienda de alimentación o de gadgets). Pero también puede suceder que tiendas con inventarios reducidos o muy específicos quieran mantener «controlados» a un gran número de competidores. Visitar sus tiendas y ofertas cada día y comparar los precios podría ser una misión casi imposible, de modo que recurrir a estas técnicas puede ser parte de la solución – o al menos una ayuda extra que nunca viene mal.

Ambas técnicas hacen referencia a la forma en que se recopila la información. El screen scrapping se refiere a la forma más antigua, tanto en equipos propios como externos, normalmente antiguos y que generalmente funcionaban en pantallas o terminales «de texto». Un software diseñado especialmente puede capturar esos datos y trasladarlos a bases de datos o formatos más manejables como hojas de cálculo. Aunque todavía se usa ese término, hoy en día lo normal es referirse principalmente al web scrapping, básicamente porque toda esa información está en la web y se pueden usar las mismas técnicas de programación (peticiones de páginas web y análisis de su contenido) para obtener los datos.

El buen scrapping no es una tarea trivial y de hecho suele necesitar de programadores y herramientas especializadas para poder hacerlo satisfactoriamente. Aunque la información esté en páginas web públicas a las que se puede acceder casi automáticamente hay que «rascarla» dato a dato para poder procesarla. Y esto no siempre es fácil: aunque visualmente parezca sencillo, el código HTML interno de las páginas web puede facilitar la tarea… O todo lo contrario.

Por esta razón muchas tiendas y agregadores utilizan las llamadas APIs (interfaces de programación de aplicaciones) que son básicamente una forma para que unas máquinas hablen con otras. Por poner un ejemplo, Amazon cuenta con APIs donde cualquier software o «bot» puede consultar los nombres de los libros, juguetes y otros productos, sus precios, descripciones, obtener las fotos y demás. Muchas compañías aéreas facilitan también APIs para consultar el precio de sus billetes. Esto es porque Amazon o las agencias facilitan esta información a páginas webs y tiendas asociadas para que recomienden o revendan sus productos a cambio de una comisión – de modo que les interesa ponérselo fácil. Por lo general sólo se requiere registrarse como desarrollador para acceder a estas APIs; en ocasiones hay que pagar si el número de consultas diarias es elevado.

Cuando una tienda o sitio web no ofrece una API por cualquier razón aun así se pueden utilizar aplicaciones específicas para extraer los datos: software y servicios web como Import.io, WebHose.io, Scrapinghub y otras generan ficheros en formato .CSV (hojas de cálculo) lanzando sus bots a recopilar la información solicitada de los sitios requeridos. Normalmente requiere revisar y marcar qué datos se desea y que el sitio a analizar esté bien estructurado.

A nivel experimental y como uso de «andar por casa», incluso Google Docs tiene una herramienta en sus hojas de cálculo (la función ImportXML) que permite extraer datos de cualquier página web medianamente estructurada. (En la web de Ben L. Collins hay un tutorial al respecto: Google Sheets as a basic Web Scraper.) También hay quien usa estas técnicas para extraer información de los comentarios y reseñas de productos o de las redes sociales, por ejemplo para controlar las menciones a una marca determinada o extraer los perfiles de los usuarios y analizarlos demográficamente.

Estas técnicas no siempre pueden aplicarse puesto que hay sitios web que no desean por diversas razones que se extraigan automáticamente los datos de sus catálogos. A veces utilizan técnicas de ofuscación del código (hacer el código difícil de leer para los robots pero visible para los humanos) y generalmente bloquean con el archivo robots.txt las peticiones automáticas o masivas desde el exterior. En estos casos no hay nada que hacer: la «etiqueta de Internet» obliga a quienes programan los bots a respetar los deseos de esos sitios de que no se acceda a su información de forma automática o «agresiva». Y legalmente supondría con toda probabilidad meterse en problemas – igual que lo sería utilizar el web scrapping para recopilar perfiles e información personal de forma masiva con el fin de utilizarla luego para el envío de correos o mensajes por cualquier medio, sin autorización de los receptores.

Gracias a los bots que realizan web scrapping (en ausencia de las APIs) se pueden obtener muchas veces catálogos completos de diversos proveedores para unificarlos en uno, comparar los precios de dichos proveedores o de la competencia para ajustarlos casi en tiempo real y estar al tanto rápidamente de bajadas y subidas de precios o de ofertas puntuales, para mantener los precios de la tienda competitivos.

{Foto: Tienda e-Commerce (CC) JuralMin @ Pixabay}


Tags: