On Fri, 2010-09-10 at 10:37 -0300, Gustavo Cabral wrote:
> Hola a todos!
> Alguien conoce algun sitio donde pueda obtener buenos listados de
> expresiones regulares (en inlges y castellano), de palabras como
> contenido en URLs para poner como ACL en mi Squid? No pude encontrar y
> la diversidad de términos es muy grande para ponerlas a mano.
> Muchas gracias por sus ayudas.
Hola. Pues no te recomiendo filtrar sitios por palabras. A mayor
cantidad de palabras, empezarás a incrementar el número de falsos
positivos (ej: "cum" puede ser usado en "magna cum laude" y "ass"
significa "asno", con lo que un sitio educativo o agroinformativo lo
clasificarías como porno). Además. te ejemplifico el caso de
"lavecina.com" o "lavecina.net", no lo recuerdo, ahí tienes tarea. El
sitio era xxx, y no usaba expresiones soeces, en mi oficina los usuarios
encontraban decenas de estos por mes. Usa squidguard, usa otras técnicas
más efectivas para filtrar aquello.
Otra opción, que me resultó mejor, es escribir un script en perl que
analice el tráfico actual a partir de los logs de squid, y me mande por
correo un reporte diario de el tráfico que tuvo *cada usuario por sitio
web*. Así, puedes llamar al usuario y mostrarle que lo que hace es
suceptible de denunciarse a la dirección. Y no solo descubrirás
pornografía. Yo hallé: tarot, deporte, sexo, medicina, mp3, videos,
cocina, ropa, lujos, viajes (y cosas particulares de un ciclista, una
jefa de administradoras muy ociosa, y un gay). Y ningún usuario
reincidió luego de ser reprendido (excepto la administradora, obvio).
Permiso, voy a verificar el lenguaje de lavecina.net...
----------------------------------------------
Rodolfo Alcazar Portillo - nospaze@???
otbits.blogspot.com / counter.li.org: #367962
----------------------------------------------
Es gibt 10 Arten von Leuten. Diejenigen, die die Binärsprache verstehen
und die die sie nicht verstehen.
- Unbekannter Autor