Antes de processar estatísticas é necessário recolher os dados relativos ao tráfego do site.
Existem vários tipos de dados e várias formas de obter esses dados.
Recolha de dados por inclusão
Uma das formas de recolher dados de tráfego mais utilizada entre os bloggers é através da inclusão de um código HTML em todas as páginas do site.
O código adicionado pode ser uma imagem ou um ficheiro javascript, ou mesmo um conjunto dos dois.
Nos casos em que é adicionada uma imagem esta é muitas vezes utilizada para mostrar um dos dados calculados a partir do tráfego (pageviews, unique Users, tamanho da long tail, depende de solução para solução, veremos detalhes de algumas delas mais à frente noutros posts), ou pode ser utilizada apenas para divulgar a solução utilizada.
Nos casos em que é utilizado um script javascript este pode ser utilizado para obter algumas informações adicionais acerca das condições de navegação do utilizador, que não são possíveis de recolher de outras formas. Alguns exemplos desta informação é a resolução do monitor ou os plugins que estão activos. Quase tudo o resto pode ser obtido por outras formas.
A grande vantagem das soluções de recolha de dados por inclusão é o software que faz a recolha trata tudo, sem ser necessário ter privilégios especiais no servidor onde o site está a correr. No caso dos blogs que estão nas principais plataformas grátis (blogger.com, blogs.sapo.pt, weblogs.pt, etc) esta é mesmo a única forma de se obter informação acerca do tráfego do site ou do blog.
A inclusão de código javascript em particular é a única forma de saber, por exemplo, que resolução têm os monitores dos utilizadores do site.
As desvantagens destas técnicas estão relacionadas com os utilizadores que não vêm imagens ou não correm javascript e os robots.
Com esta técnica os robots não correm os scripts javascript, pelo que não conseguimos saber quando é que o site é indexado, e mesmo quando se utilizam imagens os robots apenas a pedem um número muito restrito de vezes, e não sempre que pedem uma página onde elas apareçam.
O mesmo se passa com utilizadores que tenham as imagens ou o javascript desactivado ou que não suportem esse tipo de funcionalidades, como nos casos dos browsers de texto (como o links ou o lynx).
Recolha no servidor
A recolha de logs no servidor é uma das melhores soluções, e das mais simples de implementar quando se têm acesso às configurações do servidor.
A grande vantagem da recolha de dados no servidor é que todos os pedidos a que o servidor responde ficam registados nos ficheiros de logs, independentemente de serem feitos pelos robots dos motores de pesquisa, por browsers com suporte de imagens e javascript ou por browsers minimalistas, que apenas mostram texto.
Esta soluções, no entanto, nem sempre está disponível, como no caso em que o site se encontra numa das muitas plataformas de alojamento gratuito (ou nas ferramentas de blog grátis).
Recolha por sniffing
Uma terceira forma de recolher a informação de tráfego é sniffando essa informação da rede.
Esta é uma situação pouco comum, mas é bastante satisfatória quando existe uma grande quantidade de servidores, por vezes a correr em plataformas diferentes, mas em que todo o tráfego passa num ponto comum da rede, pois permite centralizar a recolha de logs, facilitando bastante a gestão dessa recolha, especialmente porque muitas vezes plataformas diferentes (IIS em Windows e Apache, por exemplo) produzem formatos de logs distintos, que são depois difíceis de comparar e analisar conjuntamente.
Conclusão
Estas três são as mais comuns formas de recolha de logs. Cada uma delas têm o seu próprio lugar, e pensar que uma delas é melhor ou pior é esquecer que na realidade cada uma delas se adapta mais facilmente a um determinado ambiente.
A forma como os dados são recolhidos depende do tipo de ambiente em que os sites a analisar se encontram, mas também da ferramenta de análise que se pretende utilizar. Algumas ferramentas incluem já o processo de recolha, normalmente por inclusão, outras dependem de formatos específicos de logs.
Nos próximos artigos ao analisar algumas das soluções de estatísticas mais conhecidas e utilizadas falarei sobre as formas de recolha de dados a utilizar para cada uma delas.