Estas nuevas fuentes de datos, conocidas colectivamente como «datos alternativos«, tienen el potencial de dar a las empresas una ventaja informativa crucial en el mercado, permitiéndoles generar alfa.
Aunque los inversores ahora están utilizando innumerables fuentes de datos alternativas, como datos de satélites, clima, empleo, datos comerciales…, la principal fuente de datos alternativos son las diversas formas de datos web: datos rastreados, tendencias de búsqueda y tráfico de sitios web.

Los datos recogidos de webs son únicos, en el sentido que hay un enorme océano de datos de señalización, valiosos y actualizados, que se encuentran al alcance de todos en la red. Sin embargo, están bloqueado en formatos de datos no estructurados o son de difícil acceso.
En este artículo analizaremos la forma más popular de datos alternativos, los datos obtenidos de sitios web. Además compartiremos cuál es el factor más importante que las empresas deben tener en cuenta al crear una fuente de datos financieros alternativa sólida para los procesos de toma de decisiones de su inversión.
Requisitos de los datos para decisiones de inversión
Cuando se trata de usar datos en decisiones de inversión multimillonarias, la capacidad de validar la hipótesis de inversión a través de la evaluación comparativa y el backtesting son cruciales. Lo que significa es que los datos extraídos de la web no comienzan a ser realmente valiosos hasta que tengamos un conjunto de datos histórico completo. La clave aquí es la palabra «completa».
Como veremos en más detalle a continuación, la integridad y la calidad de los datos juegan un rol enorme en el valor y la utilidad de cualquier fuente de datos. Sin un conjunto completo de datos históricos, es casi imposible para las empresas validar su tesis de inversión antes de comprometerse con una decisión de inversión.
Cada tesis de inversión debe someterse a rigurosas pruebas de estrés para evaluar la solidez de los supuestos subyacentes, el riesgo previsto y el rendimiento de la inversión, y luego compararse con otras tesis de inversión competidoras que compiten por el mismo conjunto de presupuesto de inversión.
La forma más efectiva de evaluar cómo una tesis de inversión se habría enfrentado en situaciones pasadas es mediante pruebas de estrés con datos históricos. Por tanto, la necesidad de datos históricos completos es extremadamente importante.

Hay dos enfoques adoptados para obtener los datos históricos que necesitan las empresas:
1. Compra de conjuntos de datos históricos
Una opción es la compra de conjuntos de datos estándar de proveedores de datos alternativos. La integridad y el valor de estos conjuntos de datos se pueden validar fácilmente con algunos análisis internos, sin embargo, sufren mucho de la mercantilización, reutilización y pérdida de valor.
Como estos conjuntos de datos están a la venta, todos pueden tener acceso a las mismas fuentes de datos, reduciendo significativamente la ventaja informativa que una empresa puede obtener sobre otra a partir de los datos resultantes. La capacidad de generar alfa con los datos dependerá en gran medida de las competencias de los equipos internos de análisis e inversión de datos, y de los demás datos de propiedad con los que puedan combinar estos conjuntos de datos estándar.
2. Crear uno propio
La otra opción, cada vez más popular, es que las empresas creen sus propias fuentes de datos web para tratamiento en sus modelos de inversión, y creen sus propios conjuntos de datos históricos. Este enfoque también tiene ventajas y desventajas.
La gran ventaja para las empresas que crean sus propios feeds de datos web es que les da acceso a datos únicos que sus competidores no tendrán. Tener sus propias capacidades internas de extracción de datos mejora exponencialmente la cantidad y la integridad de las tesis de inversión que su equipo puede desarrollar permitiéndoles desarrollar tesis de inversión que les otorguen una ventaja única sobre el mercado. Sin embargo, el principal inconveniente de la creación de feeds de datos internos es el hecho de que normalmente son una inversión para el futuro. Es probable que las empresas no utilicen los datos extraídos de inmediato (dependiendo del tipo de datos que puedan usar) ya que necesitan crear una acumulación de datos históricos.
Como hemos visto, hay una gran necesidad de datos web en la toma de decisiones de inversión, sin embargo, como hemos señalado, todo depende en gran medida de la calidad de los datos subyacentes.
Calidad de datos
Con mucho, el elemento más importante para el éxito de un proyecto de extracción de datos web alternativos para finanzas es la calidad de los datos.
Sin datos completos y de alta calidad, los datos web a menudo son inútiles para la toma de decisiones de inversión. Simplemente es muy poco fiable y arriesgado basar las decisiones de inversión en datos incompletos o de baja calidad.
Esto plantea un gran desafío para cualquier equipo de adquisición de datos de hedge funds, ya que los requisitos de precisión y cobertura a los que se enfrentan a menudo superan con creces los requisitos de un proyecto típico de scraping de datos de webs.
La razón de esta mayor necesidad de calidad de datos es el hecho de que cualquier ruptura o corrupción en los datos a menudo corrompe todo el conjunto de datos, haciéndolo inutilizable para la toma de decisiones de inversión.
Si hay una interrupción en la alimentación de datos, la interpolación entre los puntos de datos disponibles podría provocar errores que podrían dañar la salida de cualquier análisis de los datos. Potencialmente conduciendo a una decisión de inversión equivocada. A menos que pueda confiar en la precisión de la interpolación, cualquier interrupción en la fuente de datos puede interrumpir gravemente la facilidad de uso de los datos.
Debido a esta necesidad de datos fiables y de alta calidad, los equipos de búsqueda de fondos de financiación alternativa deben duplicar los fundamentos básicos de la construcción de una infraestructura de búsqueda de datos robusta: diseño de rastreador / extractor, gestión de proxy y control de calidad de datos.

El diseño de rastreador y extractor desempeña un papel crucial en la calidad y fiabilidad de una fuente de datos alternativa para las finanzas. Como su nombre indica, el rastreador (crawler) y el extractor son parte del sistema de raspado web que localiza y extrae los datos de destino del sitio web.
Como resultado, cualquier inexactitud aquí es extremadamente difícil (a veces imposible) de corregir en el post-procesamiento. Si los datos sin procesar extraídos están incompletos, son incorrectos o están dañados, sin otras fuentes de datos independientes para complementar, interpolar y validar los datos, los datos sin procesar subyacentes pueden quedar inutilizables. Priorizar el diseño del rastreador y el extractor debe ser el foco principal al crear una infraestructura de extracción de datos web para datos financieros alternativos.
Queda fuera del alcance de este artículo detallar cómo desarrollar crawlers y extractores potentes, sin embargo, analizaremos algunos puntos de alto nivel a tener en cuenta al diseñar sus rastreadores y rastreadores.
Con la importancia de los datos de valor para la toma de decisiones de inversión, no hay nada mejor que contar con la ayuda de ingenieros de software con experiencia en rastreo al diseñar y construir rastreadores y extractores.
Cada sitio web tiene sus propias peculiaridades y desafíos, desde estructuras descuidadas pasando por javascript que no permite leer el contenido, hasta contramedidas anti-bots y dificultades para navegar a los datos de destino. Tener ingenieros con experiencia le permite a su equipo predecir los desafíos a los que enfrentarán sus rastreadores y extractores mucho antes de que se manifiesten los problemas. Permitiéndole desarrollar una fuente de datos sólida desde el primer día y crear conjuntos de datos históricos, en lugar de pasar semanas resolviendo problemas y refinando una fuente de datos que produce datos no confiables.
La forma en que se configuran los rastreadores y los extractores web también es muy importante. Al crear su infraestructura de scraping web, necesita separar los programas que como arañas tejen redes de webs para la extracción de datos. Los rastreadores deben ser altamente configurables y estar diseñados para permitir que los rastreos se detengan y reanuden fácilmente sin pérdida de datos. Es inevitable con los cambios en el sitio web y los desafíos anti-bot que los rastreadores en algún momento dejarán de proporcionar una calidad de datos perfecta. Como resultado, sus rastreadores deben ser configurables, ser capaces de detectar y afrontar los casos de inaccesibilidad previstos y estar estructurados de manera que puedan detenerse y reanudar donde se pararon.
El factor más importante para garantizar la fiabilidad de su fuente de datos es asegurarse de que pueda acceder de manera confiable a los datos que necesita, sin importar la escala. Como resultado, una solución de administración de proxy robusta es una necesidad absoluta.
Para solicitar páginas web de forma persistente lo más importante es un buen sistema de administración de proxy. Si sus solicitudes se bloquean constantemente, esto implica un riesgo muy alto de que haya vacíos en su fuente de datos.
Es muy común que los equipos de scraping web se encuentren con graves problemas de prohibición a medida que mueven las arañas de software a la extracción real. Las solicitudes bloqueadas a escala pueden convertirse en una pesadilla y en una gran carga para el equipo de resolución de problemas.
Una capa de administración de proxy robusta e inteligente permite rotar las IP, seleccionar IPs geográficas específicas, acelerar las solicitudes, identificar las prohibiciones y los captchas, automatizar los reintentos, administrar sesiones, editar agentes de usuarios y la lógica de la listas negras para evitar que sus proxies sean bloqueados y así evitar interrumpir la alimentación de datos.
Tiene dos opciones aquí, puede usar proxies de alta calidad y desarrollar a medida esta infraestructura de administración de proxy de manera interna o usar una solución de administración de proxy estandar. La administración de proxies no es una competencia central o una tarea de alto ROI para los negocios de inversión por lo que nuestra recomendación es utilizar soluciones de administración de proxy sólidas y bien mantenidas, que permitan concentrarse en el uso de los datos en sus procesos de toma de decisiones de inversión.
Por último, la infraestructura de extracción web de su empresa debe incluir una capa de garantía de calidad de datos altamente capaz y robusta que pueda detectar problemas de calidad de los datos en tiempo real para que puedan solucionarse de inmediato para minimizar la posibilidad de que haya interrupciones en la fuente de datos.
Obviamente, un proceso de control de calidad completamente manual simplemente nunca podría garantizar los niveles de calidad requeridos a escala. Debe implementar un proceso híbrido de control de calidad automatizado y manual que sea capaz de monitorizar sus rastreadores en tiempo real, detectar problemas de precisión y cobertura de datos, corregir problemas menores e identificar problemas importantes para la inspección manual por parte de su equipo de control de calidad.
Como hemos visto, hay muchos desafíos asociados con la extracción de datos financieros alternativos de la web. Sin embargo, con la experiencia, las herramientas y los recursos adecuados, puede crear una infraestructura de raspado web altamente robusta para impulsar su proceso de toma de decisiones de inversión con datos web de alta calidad y obtener una ventaja informativa sobre el mercado.
Si está interesado en extraer datos web para sus procesos de toma de decisiones, pero no dispone de un equipo dedicado de scraping web en la empresa puede subcontratar a una empresa dedicada a estas tareas o incorporar a algún perfil que ayude a su equipo. Desde Baoss estaremos encantados de ayudarle en cualquiera de las opciones que mejor se adapten a sus necesidades.
What do you think?
buena pagina pero quiero saber como o donde comprarlo y ocuparlo en el movil
Desde Baoss ofrecemos productos y soluciones a medida para empresas y organizaciones. Para particulares puedes buscar en internet por herramientas de análisis de datos y podrás acceder una serie muy variada de oferta dependiendo tus necesidades y presupuesto.
El avance tecnológico es indudablemente de gran ayuda en los diferentes sectores o áreas de la vida real. Me gustaría saber el uso del big Data en las exploraciones mineras,dando un ejemplo real.
Estimado Alberto, gracias por tu comentario. Para analizar un caso real en el sector que comentas puedes ponerte en contacto con nosotros a través del formulario que encontrarás en la página de Contacto y con mucho gusto estudiaremos tu caso.
Creo que también ha sido muy útil en las predicciones de las ocurrencias de eventos de la naturaleza, como los huracanes, los terremotos, maremotos, las trombas marinas, incluso creo que con los suficientes datos podrán predecir los incendios forestales
Hola muy buen día, soy estudiante de Ciencias de la Tierra y el Big Data es uno de los temas que más se están manejando en la actualidad, pues sus aplicaciones son realmente ilimitadas- Me gustaría que me compartieran un poco de sus conocimientos a manera breve y general sobre las aplicaciones en casos de la vida real que se estén llevando a cabo en sectores como la industria minera, la industria petrolera y algunas otras aplicaciones en la solución de problemas ambientales.
.Espero me puedan compartir un poco de su información, sin duda sería interesante aplicarlo en la solución de problemas de mi área de estudio y de la misma forma compartirlo con mis colegas de profesión, pues es necesario divulgar estos conocimientos para que lleguen a más personas y comiencen a tomarse en cuenta en otras áreas de estudio. Saludos y gracias por su tiempo
Gracias Emiliano por tu comentario y por seguirnos. Iremos publicando nuevos artículos. Suerte en tu carrera!
I am really enjoying the theme/design of your site.
Do you ever run into any browser compatibility issues?
A few of my blog readers have complained about my site not
operating correctly in Explorer but looks great in Firefox.
Do you have any tips to help fix this problem?
Not at all. Thanks!
Hay algún municipio que utilice el big data y que haya mejorado el servicio a la ciudadanía, me podrías compartir esa información
Prácticamente todos los municipios grandes lo llevan utilizando hace años para medir y prever niveles de contaminación, tráfico, turismo, y muchos casos mas.
A través de la Big Data, existe el más pavoroso riesgo, todo lo anterior obvia el mayor peligro implícito en este tipo de tecnologías que hoy por hoy están fuera de control. La posibilidad de controlar, manipular, inducir, orientar a poblaciones enteras en pos de obtener objetivos perversos dirigidos por poderes fácticos ubicados en cualquier parte del mundo. Estamos iniciando un proceso que más temprano que tarde terminará con las democracias occidentales.
[…] http://www.baoss.es/10-ejemplos-usos-reales-big-data/ […]
[…] conclusiones obtenidas del estudio masivo de datos ya están revolucionando muchos campos que nada tienen que ver con la empresa o el retail. Por ejemplo: Google y el CDC, el centro de control de enfermedades de Estados Unidos, se aliaron […]
[…] Fuente de información: https://www.baoss.es/10-ejemplos-usos-reales-big-data/ […]
[…] Referencias: wikipedia.org, pauhortal.net, baoss.es, powerdata.es, mintic.gov.co […]
[…] Y, como decíamos, esta tendencia no solo puede ayudarnos a mejorar las ventas en nuestros negocios, si no que, aplicada a otros sectores, puede mejorar nuestra calidad de vida. La administración pública, el turismo, la sanidad, hacienda… todos ellos disponen de grandes almacenes de datos que con un buen análisis y el uso de las herramientas adecuadas pueden aportar importantes soluciones. Hay ya muchos ejemplos reales de uso de Big Data en este sentido: se integran datos de historiales clínicos con otros de redes sociales para detectar brotes de gripe en tiempo real; se usan datos de tráfico rodado para mejorar la movilidad en las ciudades; o el uso de datos personales (a veces trascendiendo el derecho a la privacidad) para evitar ataques terroristas. Ver más ejemplos aquí. […]
[…] https://www.baoss.es/10-ejemplos-usos-reales-big-data/ […]
[…] https://www.baoss.es/10-ejemplos-usos-reales-big-data/ […]
[…] EJEMPLOS: Marketing y ventas son quizá las áreas de mayor aplicación de big data en la actualidad, los datos que se encuentran sirven para entender mejor al cliente. en la salud pública La capacidad de procesamiento de plataformas de análisis de big data nos permite ya descodificar cadenas enteras de ADN en cuestión de minutos y permitirá encontrar nuevos tratamientos y comprender mejor las enfermedades, sus desencadenantes y los patrones de propagación mejoramiento de la seguridad: El sistema de IA creado en el MIT predice el 85% de los ciberataques. Otros ejemplos: Las fuerzas policiales están empezando a utilizar herramientas de big data para dar con criminales e incluso prevenir actividades criminales.Otro ejemplo que lleva años empleándose es en la detección de transacciones fraudulentas con tarjetas de crédito. https://www.sas.com/es_pe/insights/big-data/what-is-big-data.html https://xombit.com/2015/11/big-data-procesar-informacion http://www.iic.uam.es/innovacion/big-data-caracteristicas-mas-importantes-7-v/ https://www.baoss.es/10-ejemplos-usos-reales-big-data/ […]
[…] Lee más ejemplos de Big Data Analytics eficaz aquí. […]
[…] El uso de Big Data: El uso de Big Data nos facilita muchísimo la conexión con posibles compradores y sus intereses, esto nos ayuda a ser […]
Comments are closed.