Galera, o Gabarito me enviou a mensagem abaixo:
Grande Pedro Reis!
Quem é vivo...
Pois é, amigão, estou na área.
Como tem passado a sua prezada figura?
Fiquei sabendo que o clube está levantando acampamento. É verdade?
Mas que situação mais que lamentável...
E como fica a existência de debates interessantíssimos que foram travados aqui?
Vai tudo para o limbo? Seguem todos eles para o Nada Absoluto?
Isso é um crime equivalente a genocídio. Isso é a queima da Biblioteca de Alexandria.
E o que o nobre amigo está fazendo a respeito? Enfiando um braço pelo outro em cruz?
Não acredito.
Pois logo que eu fiquei sabendo da fatídica decisão, voltei correndo aqui e tentei ver uma forma de salvar algumas migalhas de informação e cultura.
Tentei um programa chamado wget para Windows, mas não tive muita sorte com seus parâmetros em linha de comando para retomar o download das páginas a partir do ponto em que parou. Ele insistia em baixar tudo de novo, mesmo com a cláusula '-c'.
Tentei depois um outro chamado WinHHTrack que parece mais desenvolto nessa tarefa de retomada.
E é com ele que venho salvando alguma coisa.
Vi num comentário seu o cálculo aproximado de quanto de espaço seria necessário para abarcar o conteúdo do fórum. Você disse algo em torno de 25 Gb ou 3 DVDs.
Naquele cálculo, você considerou apenas texto puro. O WinHTTrack, na configuração padrão, a que eu adotei, baixa também as imagens.
Portanto, desconfio que o volume esperado deva ser muito maior.
O grande problema do programa é a sua enorme lentidão para baixar alguma coisa.
Não sei se isso se deve à minha conexão não ser das melhores ou de alguma limitação do fórum ou do programa. Sei lá.
Atualmente, a pasta base para o download vai com 10 Gb. Nesse ritmo, temo que não conseguirei baixar o que pretendo antes do terrível dia 31 de janeiro, data da execução no pelotão de fuzilamento do nosso clube.
O que fazer?
Não sei.
Vejo uma locomotiva se aproximando e que vai jogar para os ares muita coisa do que eu gostaria de salvar, mas não estou vendo como evitar tal infortúnio.
Por mais que eu me apresse, a velocidade com que salvo as coisas não tem sido suficiente e a data fatídica se aproxima inexoravelmente.
Vejo-me dentro de um filme de ação em que o mocinho tem alguns segundos para escapar antes que tudo se exploda pelos ares.
Diga-me o que você está fazendo a esse respeito.
Sei que está fazendo, não negue.
Você não cruzaria, simplesmente, os braços.
Vamos procurar mais informação entre os especialistas, vamos juntar esforços, quem sabe separar o fórum em tópicos e cada um baixa uma parte dele para juntar tudo depois e salvar o magnífico acervo que está sob gravíssimo risco de virar pó.
Fale algo...
Ah! E desculpe-me por chegar assim de supetão trazendo um assunto urgente de vida ou de morte assim do nada...
O tempo urge!
Eu nem me preocupei com o backup porque vi que já tinha gente fazendo. De qualquer forma, imagino que o webmaster já tenha cuidado ou vá cuidar disso.
Mas para quem está fazendo o backup com estes programas citados, se estão baixando imagens e arquivos desnecessários, será que não há uma opção para desabilitar?
Evidentemente os arquivos de imagens e vídeos dos posts, por exemplo, não estão no servidor do fórum, portanto é desnecessário baixar estes arquivos para sua máquina para abrir as páginas. Mas tem que baixar os arquivos que irão ficar inacessíveis quando o CC sair do ar. E talvez o programa não seja esperto o suficiente para fazer a diferenciação.
A partir da msg do Gabarito, comecei a esboçar mais ou menos uma ideia de como poderia ser feito um programa para "backapear" o fórum inteiro.
É o seguinte:
Na URL de cada página de cada tópico há a numeração do tópico e da página. Fazendo um simples loop é possível formar dentro deste laço as URLs de todas as páginas de todos os tópicos. E a partir destas URLs o programa poderia baixar os arquivos HTML de cada uma destas páginas para a máquina onde estiver rodando.
Isto seria bem rápido e não deve requerer muita memória e pode servir para depois restaurar o fórum inteiro em outra plataforma.
Mas há um problema: estas páginas baixadas não poderão mais serem abertas corretamente na sua máquina depois que o fórum não estiver acessível. Porque alguns arquivos que são baixados tendo como referência o domínio do CC não estarão mais acessíveis.
Nesse caso o programa precisa baixar apenas estes arquivos para uma pasta na sua máquina e alterar cada documento HTML para que os busque nesta pasta, em vez de acessar o local original.
Estes devem ser arquivos com extensão js.download, css, alguns gifs e png.
Infelizmente não conheço HTML a fundo pra fazer o código que identifica quais gifs e pngs devem ser baixados, mas um programa que crie uma pasta para cada tópico do fórum ( dando o nome do tópico a esta pasta ), e baixe todas as páginas do tópico para esta pasta, não deve ser complicado.
Vou ver se esse fim de semana faço isso e ponho o código aqui. Assim talvez alguém possa fazer essa pequena modificação sugerida acima e o programa se torna um capaz de fazer o backup inteiro do CC de forma que todas as páginas poderão ser abertas localmente mesmo quando o fórum estiver inacessível.
Porém fazendo o download apenas do estritamente necessário.