Files
2026-06-09 18:40:21 +02:00

3.2 KiB


title: Webcap created: 2026-06-08 updated: 2026-06-08 type: app tags: [catalogue, archive, app-marathon-batch-rattrapage-2] confidence: medium contested: false sources: [https://selfh.st/apps/?tag=Archiving&app=webcap]

📦 Webcap

Outil de capture web en CLI / bibliothèque : prenez des captures de pages web (HTML, PDF, screenshots) à intervalle régulier pour archivage léger et versionné.

📋 Informations Générales

Champ Valeur
Site web github.com/zenika-web/webcap
GitHub zenika-web/webcap
License MIT
Langage TypeScript / Node.js
Étoiles GitHub <0.1k
Catégorie [[cat-archive

📝 Description

Webcap est un outil/programme léger (CLI + API) dédié à la capture périodique de pages web : il prend des screenshots, des PDF et copie le HTML de pages cibles à intervalle régulier. Pensé pour la veille d'archives : garder trace de l'évolution d'un site, surveiller une page qui change souvent (tarifs, communiqués, dashboards publics).

Différence vs ArchiveBox : ArchiveBox est une plateforme complète d'archivage web avec UI, navigateur headless, gestion d'URLs en masse. Webcap est minimaliste : un script de capture, parfait pour des cas d'usage simples ou pour intégration dans un pipeline plus large.

Pour qui : développeurs, archivistes, veilleurs qui veulent automatiser la capture de quelques URLs sans monter une stack lourde.

🚀 Installation

Utilisation en CLI (npm)

npm install -g webcap
webcap --url https://example.com --format pdf --output ./captures/

Docker Compose (mode service)

version: '3.8'
services:
  webcap:
    image: ghcr.io/zenika-web/webcap:latest
    container_name: webcap
    restart: unless-stopped
    environment:
      WEBCAP_SCHEDULE: "0 * * * *"
      WEBCAP_URLS_FILE: /config/urls.txt
      WEBCAP_OUTPUT_DIR: /captures
    volumes:
      - ./urls.txt:/config/urls.txt:ro
      - webcap_captures:/captures
  # Optionnel : cron déclenché via sidecar

volumes:
  webcap_captures:

🔄 Alternatives

Open Source

  • app-archivebox — Plateforme d'archivage web complète, plus puissante.
  • Caddy + headless Chrome — Capture manuelle.
  • Monolith — CLI de capture web en Rust.
  • WARC — Format d'archive web standard (projet Internet Archive).

Propriétaires

  • Archive.today — Service d'archive web public.
  • Pagefreezer — Archiving web d'entreprise (compliance).
  • Smarsh / PageVault — Solutions d'archivage web corporate.

🔐 Sécurité

  • HTTPS : pas un service exposé, utilisé en interne.
  • Self-hosting : attention à la croissance du dossier de captures (PDF/screenshots volumineux), purger régulièrement.

📚 Ressources

Pages Liées