--- title: Webcap created: 2026-06-08 updated: 2026-06-08 type: app tags: [catalogue, archive, app-marathon-batch-rattrapage-2] confidence: medium contested: false sources: [https://selfh.st/apps/?tag=Archiving&app=webcap] --- # 📦 Webcap > **Outil de capture web en CLI / bibliothèque** : prenez des captures de pages web (HTML, PDF, screenshots) à intervalle régulier pour archivage léger et versionné. ## 📋 Informations Générales | Champ | Valeur | | :--- | :--- | | **Site web** | [github.com/zenika-web/webcap](https://github.com/zenika-web/webcap) | | **GitHub** | [zenika-web/webcap](https://github.com/zenika-web/webcap) | | **License** | MIT | | **Langage** | TypeScript / Node.js | | **Étoiles GitHub** | <0.1k ⭐ | | **Catégorie** | [[cat-archive|Archive]] | ## 📝 Description **Webcap** est un outil/programme léger (CLI + API) dédié à la **capture périodique de pages web** : il prend des **screenshots**, des **PDF** et copie le **HTML** de pages cibles à intervalle régulier. Pensé pour la **veille d'archives** : garder trace de l'évolution d'un site, surveiller une page qui change souvent (tarifs, communiqués, dashboards publics). Différence vs **ArchiveBox** : ArchiveBox est une plateforme complète d'archivage web avec UI, navigateur headless, gestion d'URLs en masse. Webcap est minimaliste : un script de capture, parfait pour des cas d'usage simples ou pour intégration dans un pipeline plus large. Pour qui : développeurs, archivistes, veilleurs qui veulent **automatiser** la capture de quelques URLs sans monter une stack lourde. ## 🚀 Installation ### Utilisation en CLI (npm) ```bash npm install -g webcap webcap --url https://example.com --format pdf --output ./captures/ ``` ### Docker Compose (mode service) ```yaml version: '3.8' services: webcap: image: ghcr.io/zenika-web/webcap:latest container_name: webcap restart: unless-stopped environment: WEBCAP_SCHEDULE: "0 * * * *" WEBCAP_URLS_FILE: /config/urls.txt WEBCAP_OUTPUT_DIR: /captures volumes: - ./urls.txt:/config/urls.txt:ro - webcap_captures:/captures # Optionnel : cron déclenché via sidecar volumes: webcap_captures: ``` ## 🔄 Alternatives ### Open Source - [[app-archivebox]] — Plateforme d'archivage web complète, plus puissante. - **Caddy + headless Chrome** — Capture manuelle. - **Monolith** — CLI de capture web en Rust. - **WARC** — Format d'archive web standard (projet Internet Archive). ### Propriétaires - **Archive.today** — Service d'archive web public. - **Pagefreezer** — Archiving web d'entreprise (compliance). - **Smarsh / PageVault** — Solutions d'archivage web corporate. ## 🔐 Sécurité - **HTTPS** : pas un service exposé, utilisé en interne. - **Self-hosting** : attention à la **croissance du dossier de captures** (PDF/screenshots volumineux), purger régulièrement. ## 📚 Ressources - [GitHub](https://github.com/zenika-web/webcap) - [npm](https://www.npmjs.com/package/webcap) ## Pages Liées - [[cat-archive]] — Catégorie Archive - [[app-archivebox]] — Archivage web complet - [[app-bichon]] — Archivage RSS - [[recettes-docker-compose]] — Templates Docker