3.2 KiB
title: Webcap created: 2026-06-08 updated: 2026-06-08 type: app tags: [catalogue, archive, app-marathon-batch-rattrapage-2] confidence: medium contested: false sources: [https://selfh.st/apps/?tag=Archiving&app=webcap]
📦 Webcap
Outil de capture web en CLI / bibliothèque : prenez des captures de pages web (HTML, PDF, screenshots) à intervalle régulier pour archivage léger et versionné.
📋 Informations Générales
| Champ | Valeur |
|---|---|
| Site web | github.com/zenika-web/webcap |
| GitHub | zenika-web/webcap |
| License | MIT |
| Langage | TypeScript / Node.js |
| Étoiles GitHub | <0.1k ⭐ |
| Catégorie | [[cat-archive |
📝 Description
Webcap est un outil/programme léger (CLI + API) dédié à la capture périodique de pages web : il prend des screenshots, des PDF et copie le HTML de pages cibles à intervalle régulier. Pensé pour la veille d'archives : garder trace de l'évolution d'un site, surveiller une page qui change souvent (tarifs, communiqués, dashboards publics).
Différence vs ArchiveBox : ArchiveBox est une plateforme complète d'archivage web avec UI, navigateur headless, gestion d'URLs en masse. Webcap est minimaliste : un script de capture, parfait pour des cas d'usage simples ou pour intégration dans un pipeline plus large.
Pour qui : développeurs, archivistes, veilleurs qui veulent automatiser la capture de quelques URLs sans monter une stack lourde.
🚀 Installation
Utilisation en CLI (npm)
npm install -g webcap
webcap --url https://example.com --format pdf --output ./captures/
Docker Compose (mode service)
version: '3.8'
services:
webcap:
image: ghcr.io/zenika-web/webcap:latest
container_name: webcap
restart: unless-stopped
environment:
WEBCAP_SCHEDULE: "0 * * * *"
WEBCAP_URLS_FILE: /config/urls.txt
WEBCAP_OUTPUT_DIR: /captures
volumes:
- ./urls.txt:/config/urls.txt:ro
- webcap_captures:/captures
# Optionnel : cron déclenché via sidecar
volumes:
webcap_captures:
🔄 Alternatives
Open Source
- app-archivebox — Plateforme d'archivage web complète, plus puissante.
- Caddy + headless Chrome — Capture manuelle.
- Monolith — CLI de capture web en Rust.
- WARC — Format d'archive web standard (projet Internet Archive).
Propriétaires
- Archive.today — Service d'archive web public.
- Pagefreezer — Archiving web d'entreprise (compliance).
- Smarsh / PageVault — Solutions d'archivage web corporate.
🔐 Sécurité
- HTTPS : pas un service exposé, utilisé en interne.
- Self-hosting : attention à la croissance du dossier de captures (PDF/screenshots volumineux), purger régulièrement.
📚 Ressources
Pages Liées
- cat-archive — Catégorie Archive
- app-archivebox — Archivage web complet
- app-bichon — Archivage RSS
- recettes-docker-compose — Templates Docker