Um destes dias o Sérgio Rebelo questionava-se se os dados do Alexa são fiáveis, e se não que dados teriamos para comparar o tráfego de sites.
As respostas simples e curtas são “não” e “nenhuns”.
Alexa
Não, os dados do Alexa não são fidedignos devido à forma como são recolhidos e calculados. O Alexa baseia-se em dados fornecidos por alguns ISPs e em dados recolhidos pela utilização da sua barra.
Não sei se existe algum ISP português que lhes forneça dados, penso que não. Mas a existir representa apenas uma amostra dos utilizadores de um portal. E certamente que não são fornecidos logs de todo o tráfego desse ISP, mas apenas uma amostra desse tráfego.
A barra, em contrapartida, tem uma taxa de penetração relativamente pequena. Mas além de uma taxa de penetração pequena, a barra é utilizada especialmente por pessoas mais ligadas à internet, como webdesigners, programadores web, editores e jornalistas de sites.
O Alexa tem certamente dados reais de vários sites, incluindo aqueles que têm os gráficos em todas as páginas, o que lhes permite calcular depois rácios tão precisos quanto possível que depois utilizam para estimar da melhor forma possível o tráfego real dos sites para os quais apenas têm amostras de tráfego.
São os dados apresentados pelo Alexa realmente precisos? Não, são apenas estimativas. O Alexa tenta que os dados sejam o mais precisos possível para os grandes sites.
Uma consequência da dimensão dos grandes sites é serem acedidos por pessoas com interesses e actividades muito distintos, terem um publico muito genérico e englobante. Em consequência disto, a percentagem de utilizadores da barra do Alexa no total de utilizadores de cada um desses sites não varia muito.
Mas se formos comparar dados de um site genérico com um site temático destinado a pessoas ligadas à internet, o resultado vai ser completamente diferente, pois os utilizadores com a barra do Alexa representam uma percentagem muito maior dos utilizadores do site temático do que na generalidade dos grandes sites, fazendo com que o ranking dos sites temáticos seja largamente inflacionado pelo Alexa.
No entanto, no caso dos sits genéricos, como os principais portais portugueses, os dados do Alexa são (normalmente) relativamente fidedignos. Quando estava no Sapo tinhamos essa prespectiva da informação do Alexa, e algumas vezes durante o tempo em que fui responsável pelas estatísticas do IOL verifiquei essa mesma informação.
Mas se formos utilizar o Alexa para comparar dados de sites em áreas temáticas diferentes podemos ter surpresas, que não têm ligação directa com a realidade.
Mas quando se comparam sites com uma mesma temática e foco, poderão obter-se resultados comparativos muito interessantes (especialmente se soubermos o tráfego real de um dos sites comparados).
Outros
Mas, se os dados do Alexa não nos dizem o real tráfego de um site, existe alguma forma de obtermos esse tráfego?
Bem, seria possível, mas não seria fácil. E que eu saiba não foi feito ou tentado sequer.
Para se conseguir dados de vários sites seria preciso convencer as empresas responsáveis pelos respectivos datacenters a deixarem-nos colocar uma maquina a receber uma replica de todo o tráfego dos servidores desses sites.
Nos meus tempos de IOL a recolha de logs para processar as estatísticas era feita desta forma, ainda que do lado de dentro da firewall da Farm do portal.
Para processar apenas as estatísticas do IOL era preciso uma maquina a fazer a recolha dos logs e outra a processar logs 24/24h. Eu acredito que o Sapo tem cerca de 3 vezes mais tráfego, distribuido por duas salas de servidores distintas, ou pelo menos em duas zonas C, o que significa que provavelmente iriamos precisar de duas maquinas a gerar logs e pelo menos mais duas a processá-los.
Em seguida precisavamos fazer o mesmo com qualquer outro site que quizessemos ter estatísticas precisas, e iriamos incluir pelo menos o Clix, e talvez o aeiou e outros.
E isto em relação ao tráfego nacional. E em relação ao tráfego internacional? Bem, esse teria que ser registado monitorizando todos os links internacionais do nosso querido pais. Ainda são alguns. E precisariamos de maquinas com capacidades práticamente infinitas. Não existe a capacidade em Portugal, e duvido que algum pais do mundo tenha a capacidade para processar todo o tráfego web que ele próprio gera.
Ou então talvez me esteja a escapar alguma coisa e seja possível. O que acham?