Files
wiki/Catalogue-Self-Hosted/apps/app-webcap.md
T
2026-06-09 18:40:21 +02:00

92 lines
3.2 KiB
Markdown

---
title: Webcap
created: 2026-06-08
updated: 2026-06-08
type: app
tags: [catalogue, archive, app-marathon-batch-rattrapage-2]
confidence: medium
contested: false
sources: [https://selfh.st/apps/?tag=Archiving&app=webcap]
---
# 📦 Webcap
> **Outil de capture web en CLI / bibliothèque** : prenez des captures de pages web (HTML, PDF, screenshots) à intervalle régulier pour archivage léger et versionné.
## 📋 Informations Générales
| Champ | Valeur |
| :--- | :--- |
| **Site web** | [github.com/zenika-web/webcap](https://github.com/zenika-web/webcap) |
| **GitHub** | [zenika-web/webcap](https://github.com/zenika-web/webcap) |
| **License** | MIT |
| **Langage** | TypeScript / Node.js |
| **Étoiles GitHub** | <0.1k ⭐ |
| **Catégorie** | [[cat-archive|Archive]] |
## 📝 Description
**Webcap** est un outil/programme léger (CLI + API) dédié à la **capture périodique de pages web** : il prend des **screenshots**, des **PDF** et copie le **HTML** de pages cibles à intervalle régulier. Pensé pour la **veille d'archives** : garder trace de l'évolution d'un site, surveiller une page qui change souvent (tarifs, communiqués, dashboards publics).
Différence vs **ArchiveBox** : ArchiveBox est une plateforme complète d'archivage web avec UI, navigateur headless, gestion d'URLs en masse. Webcap est minimaliste : un script de capture, parfait pour des cas d'usage simples ou pour intégration dans un pipeline plus large.
Pour qui : développeurs, archivistes, veilleurs qui veulent **automatiser** la capture de quelques URLs sans monter une stack lourde.
## 🚀 Installation
### Utilisation en CLI (npm)
```bash
npm install -g webcap
webcap --url https://example.com --format pdf --output ./captures/
```
### Docker Compose (mode service)
```yaml
version: '3.8'
services:
webcap:
image: ghcr.io/zenika-web/webcap:latest
container_name: webcap
restart: unless-stopped
environment:
WEBCAP_SCHEDULE: "0 * * * *"
WEBCAP_URLS_FILE: /config/urls.txt
WEBCAP_OUTPUT_DIR: /captures
volumes:
- ./urls.txt:/config/urls.txt:ro
- webcap_captures:/captures
# Optionnel : cron déclenché via sidecar
volumes:
webcap_captures:
```
## 🔄 Alternatives
### Open Source
- [[app-archivebox]] — Plateforme d'archivage web complète, plus puissante.
- **Caddy + headless Chrome** — Capture manuelle.
- **Monolith** — CLI de capture web en Rust.
- **WARC** — Format d'archive web standard (projet Internet Archive).
### Propriétaires
- **Archive.today** — Service d'archive web public.
- **Pagefreezer** — Archiving web d'entreprise (compliance).
- **Smarsh / PageVault** — Solutions d'archivage web corporate.
## 🔐 Sécurité
- **HTTPS** : pas un service exposé, utilisé en interne.
- **Self-hosting** : attention à la **croissance du dossier de captures** (PDF/screenshots volumineux), purger régulièrement.
## 📚 Ressources
- [GitHub](https://github.com/zenika-web/webcap)
- [npm](https://www.npmjs.com/package/webcap)
## Pages Liées
- [[cat-archive]] — Catégorie Archive
- [[app-archivebox]] — Archivage web complet
- [[app-bichon]] — Archivage RSS
- [[recettes-docker-compose]] — Templates Docker