Resultados de Búsqueda
Crea tu propio rastreador de sitios web, tu copia de Google
¿Qué pasará cuando Microsoft Bing se coma definitivamente a Yahoo? Seguro que herramientas como Site Explorer serán historia y cada se complicará más el uso de herramientas como Advanced Link Manager, en definitiva nos tocará crear nuestra propia araña para indexar y recorrer páginas web sin depender de los grandes buscadores.
Existen hoy muchas opciones para crear nuestro propio spider, soluciones de código abierto que son realmente potentes.
Nutch es posiblemente la mejor opción para crear tu propia araña o rastreador de páginas web. Este fue construido sobre el concepto de Lucene (tiene una opción comercial) y soportado por Hadoop usando MapReduce (similar a Google) para grandes volúmenes y consultas de datos. Todos estos están basados en Java, pero existen versiones basadas en .net como Lucene.NET, Nutch.NET y Hadoop.NET que han sido portados a C#.
Pero la cosa no queda aquí y aunque Nutch es posiblemente la mejor opción para crear un rastreador y tener tu propio Google o Bing, hay otras opciones que os detallamos en esta pequeña lista:
- Arachnode. Basado en C# y .net
- Scrapy es una herramienta rápida para el rastreo de sitio web y extraer datos de la estructura de sus páginas.
- Heritrix es un proyecto de rastreo de Internet Archive.
- ASPseek es una araña desarrollada por Plesk en C++ aunque abandonado en su desarrollo.
- Crawler4j es un rastreador de código abierto que proporciona una sencilla interfaz para el rastreo de sitios web.
- HTTrack es una aplicación gratis y de código abierto para rastrear sitios webs desde tu escritorio y poder navegar offline por las webs.
- Open Search Server es una solución para crear un buscador de código abierto.
- YaYy otra opción para rastrear y crear un buscador de código abierto y en castellano.
- Sphider.eu. Un rastreador hecho en PHP.
- ¿Qué es un rastreador web? según Wikipedia en inglés
- Más buscadores de código abierto (algunos con rastreadores).
Acelera tus páginas webs hasta un 50% con Apache

Desde luego Google es un gran hermano y un gran generador de aplicaciones de código abierto para mejorar Internet y la web en general, pero no son los únicos. El caso que hace unos días publicaron un módulo para Apache llamado mod_pagespeed con el cual aseguran que es posible acelerar las transferencias de datos web hasta un 50% de cara al usuario que nos visita.
Este módulo funciona realizando modificaciones en el contenido/código de nuestra web, agrupando ficheros CSS y JS en uno único, minimizando y comprimiendo todos los html, css, .js, … incluso es capaz de comprimir y cambiar las imágenes por data:uris si tienes tu servidor web listo para hacerlo.
Todo esto con la licencia de Apache 2.0. Desde luego tendremos que pensar en probarlo, total no perdemos nada por hacerlo y si mejora todo pues mejor que mejor. Ya os contaré nuestra experiencia, vamos a ver si lo ponemos en marcha en alguno de los nuevos servidores virtualizados que vamos a montar para Color vivo Internet, no se si probaremos en alguno con Plesk o si el, pero creo que los candidatos para probar serían las webs con más tráfico como Juegos Web, Decoración 2.0 o Navidad.
Sitio Oficial de mod_pagespeed. Documentación de como instalar mod_pagespeed.
Gracias por la referencia a Barrapunto y al equipo de Marketing de Acens (donde también trabajo entre otros proyectos).
Problemas con Plesk y la actualización de OpenSSL
Si tenéis el panel de control plesk 9.x instalado sobre un servidor con CentOS 4/5 o RedHat 4/5 y habéis actualizado recientemente el paquete OpenSSL es probable que el panel de control no funcione, no es posible iniciarlo y en los logs (/var/log/sw-cp-server/error_log) sale información tal que así:
2010-04-06 11:00:00: (log.c.75) server started
2010-04-06 11:00:00: (network.c.336) SSL: error:00000000:lib(0):func(0):reason(0)
2010-04-06 12:00:00: (log.c.75) server started
2010-04-06 12:00:00: (network.c.336) SSL: error:00000000:lib(0):func(0):reason(0)
2010-04-06 13:00:00: (log.c.75) server started
2010-04-06 13:00:00: (network.c.336) SSL: error:00000000:lib(0):func(0):reason(0)
Para solucionar este problema con el panel de hosting de Parallels es necesario actualizar un paquete del propio panel, para lo que sus creadores nos proporcionan la versiones necesarias y el como hacerlo.
En mi caso hay que descargar el RPM para Centos 5 64 bits:
Leer el resto de la entrada »
Usando Amazon S3 y CloudFront con WordPress
Llevamos tiempo pensado en como optimizar la carga de nuestros servidores dedicados de forma extrema, entre las tareas que nos hemos puesto destacan las siguientes:
- Cambio de diseño de prácticamente todos los proyectos. Una tarea a medias que mi hermano Jaime está llevando a cabo poco a poco.
- Virtualización de servidores dedicados en instancias más pequeñas para mayor escalabilidad y estabilidad. Aun pendiente.
- Eliminación de Plesk en la mayoría de las instancias virtuales para usar configuraciones manuales más optimas. Aun pendiente.
- Cambiar Apache por Nginx para mejorar la eficiencia del servidor web. Aun pendiente. Ya lo ha hecho menéame y fserer.
- Uso de un CDN para contenidos estáticos como imágenes, javascript, … para lo cual hemos optado por la combinación de Amazon S3 y CloudFront. En pruebas en Decoración 2 .0.
- Utilizar memcached para optimizar el uso de las bases de datos MySQL, a ver si es posible que vaya más rápido.
- Seguro que se me olvidan muchas cosas …
Amazon Simple Storage Service o S3 es un gran servicio de almacenamiento distribuido que virtualmente ofrece capacidad de almacenamiento ilimitada. Son muchas las empresas que lo están utilizando para reducir costes de infraestructuras y almacenar con un nivel de seguridad muy aceptable. Pero como S3 no parecía suficiente la gente de Amazon lanzó CloudFront un servicio CDN (Content Delivery Network) cuya finalidad es facilitar el acceso a los datos alojados en S3 de manera distribuida como hacen por ejemplo Akamai, CacheFly, Velocix (que probamos hace unas semanas), CoralCDN (ha desaparecido), …
Lo bueno de CloudFront, es fácil de implementar y distribuirá tus contenidos de forma automática desde alguna de sus múltiples localizaciones:
- Estados Unidos: Ashburn, VA; Dallas/Fort Worth, TX; Los Angeles, CA; Miami, FL; Newark, NJ; Palo Alto, CA; Seattle, WA y St. Louis, MO.
- Europa: Amsterdam, Dublin, Frankfurt y Londrés.
- Asia: Hong Kong y Tokyo.
Después de varios meses probando opciones de CDN para mejorar la carga y rendimiento de WordPress he optado por probar la solución de Amazon y realmente de momento me está impresionando. Para poder utilizarlo en WordPress de forma sencilla hacemos uso del Plugin W3 Total Cache que facilita toda la operativa de puesta en marcha y copia de contenidos de forma automática al Bucket S3. Posiblemente tengas problemas para crear el Bucket en S3 para esa tarea puedes recurrir a un cliente S3 que te facilitará esta tarea, yo al hacerlo desde la oficina he utilizado CloudBerry Explorer, pero hay multitud de opciones gratis. Además no tendrás que mostrar que CDN utilizas ya que puedes reescribir la URL, en nuestro caso utilizamos cdn.decoracion2.com.
No voy a ponerme a explicar mucho más el proceso de activación porque es realmente intuitivo y siempre podéis recurrir a la documentación oficial de Amazon o las referencias que os dejamos a continuación.
Más referencias de como usar Amazon S3 y CloudFront: W3 Total Cache, Paul Stamatiou, más plugins con soporte CloudFront, Kovshenin, …
Actualizar servidores: Nuevo Plesk 9.2.3
Acabo de darme cuenta que hay una nueva versión de Parallels Plesk Panel 9.2.3, en la que tenemos algunas novedades y mejoras, por lo que es muy interesante actualizar nuestros servidores dedicados, siempre que lo haga un profesional. Nosotros hemos actualizado ya uno de los servidores de gestión de publicidad interna de Color Vivo Internet con OpenX.
Entre las novedades de esta versión del panel de control plesk podemos comentar:
- Soporte para el nuevo Fedora OS 11.
- Mejoras en algunas funcionalidades vinculadas a errores conocidos.
- Solucionado problemas para añadir DomainKeys en la cabeceras de los emails.
- Corregido un problema con el psa-tomcat-configurator actualizando httpd en CentOS 5 y RHEL 5.
- Solucionados problemas que generaba que las aplicaciones web fallasen porque el php.ini no estaba preconfigurado para FastCGI.
- Problema de sobrecarga de CPU causado por authpsa solucionado.
- Solucionados problemas con aplicaciones Tomcat Java que no funcionaban.
- Solucionados problemas con dominios que superaban los límites y no se suspendían.
- Solucionado problema con utilidad de estadísticas que daba un error “segmentation fault” en openSUSE 10.3.
- Solucionado un problema con la cola de correo que devolvía mensajes cuando se usaba Postfix.
- Solucionado problemas con reenvío de correo que no funcionaba bien y reportaba error cuando se usaba Postfix.
- Corregido un problema con la entrega local de correo cuando usamos Qmail.
- Corregido un error que hacia que el servidor Postfix fallase al procesar mensajes con cadenas de más de 4096 caracteres.
- Entre otras novedades que podéis ver la web de Parallels.
Más información sobre novedades en Plesk 9.2.3.
Descargar Plesk 9.2.3 para diferentes sistemas operativos.
