Crea tu propio rastreador de sitios web, tu copia de Google

¿Qué pasará cuando Microsoft Bing se coma definitivamente a Yahoo? Seguro que herramientas como Site Explorer serán historia y cada se complicará más el uso de herramientas como Advanced Link Manager, en definitiva nos tocará crear nuestra propia araña para indexar y recorrer páginas web sin depender de los grandes buscadores.

Existen hoy muchas opciones para crear nuestro propio spider, soluciones de código abierto que son realmente potentes.

Nutch es posiblemente la mejor opción para crear tu propia araña o rastreador de páginas web. Este fue construido sobre el concepto de Lucene (tiene una opción comercial) y soportado por Hadoop usando MapReduce (similar a Google) para grandes volúmenes y consultas de datos. Todos estos están basados en Java, pero existen versiones basadas en .net como Lucene.NET, Nutch.NET y Hadoop.NET que han sido portados a C#.

Pero la cosa no queda aquí y aunque Nutch es posiblemente la mejor opción para crear un rastreador y tener tu propio Google o Bing, hay otras opciones que os detallamos en esta pequeña lista:

  • Arachnode. Basado en C# y .net
  • Scrapy es una herramienta rápida para el rastreo de sitio web y extraer datos de la estructura de sus páginas.
  • Heritrix es un proyecto de rastreo de Internet Archive.
  • ASPseek es una araña desarrollada por Plesk en C++ aunque abandonado en su desarrollo.
  • Crawler4j es un rastreador de código abierto que proporciona una sencilla interfaz para el rastreo de sitios web.
  • HTTrack es una aplicación gratis y de código abierto para rastrear sitios webs desde tu escritorio y poder navegar offline por las webs.
  • Open Search Server es una solución para crear un buscador de código abierto.
  • YaYy otra opción para rastrear y crear un buscador de código abierto y en castellano.
  • Sphider.eu. Un rastreador hecho en PHP.
  • ¿Qué es un rastreador web? según Wikipedia en inglés
  • Más buscadores de código abierto (algunos con rastreadores).