92 lines
3.2 KiB
Markdown
92 lines
3.2 KiB
Markdown
---
|
|
title: Webcap
|
|
created: 2026-06-08
|
|
updated: 2026-06-08
|
|
type: app
|
|
tags: [catalogue, archive, app-marathon-batch-rattrapage-2]
|
|
confidence: medium
|
|
contested: false
|
|
sources: [https://selfh.st/apps/?tag=Archiving&app=webcap]
|
|
---
|
|
|
|
# 📦 Webcap
|
|
|
|
> **Outil de capture web en CLI / bibliothèque** : prenez des captures de pages web (HTML, PDF, screenshots) à intervalle régulier pour archivage léger et versionné.
|
|
|
|
## 📋 Informations Générales
|
|
|
|
| Champ | Valeur |
|
|
| :--- | :--- |
|
|
| **Site web** | [github.com/zenika-web/webcap](https://github.com/zenika-web/webcap) |
|
|
| **GitHub** | [zenika-web/webcap](https://github.com/zenika-web/webcap) |
|
|
| **License** | MIT |
|
|
| **Langage** | TypeScript / Node.js |
|
|
| **Étoiles GitHub** | <0.1k ⭐ |
|
|
| **Catégorie** | [[cat-archive|Archive]] |
|
|
|
|
## 📝 Description
|
|
|
|
**Webcap** est un outil/programme léger (CLI + API) dédié à la **capture périodique de pages web** : il prend des **screenshots**, des **PDF** et copie le **HTML** de pages cibles à intervalle régulier. Pensé pour la **veille d'archives** : garder trace de l'évolution d'un site, surveiller une page qui change souvent (tarifs, communiqués, dashboards publics).
|
|
|
|
Différence vs **ArchiveBox** : ArchiveBox est une plateforme complète d'archivage web avec UI, navigateur headless, gestion d'URLs en masse. Webcap est minimaliste : un script de capture, parfait pour des cas d'usage simples ou pour intégration dans un pipeline plus large.
|
|
|
|
Pour qui : développeurs, archivistes, veilleurs qui veulent **automatiser** la capture de quelques URLs sans monter une stack lourde.
|
|
|
|
## 🚀 Installation
|
|
|
|
### Utilisation en CLI (npm)
|
|
|
|
```bash
|
|
npm install -g webcap
|
|
webcap --url https://example.com --format pdf --output ./captures/
|
|
```
|
|
|
|
### Docker Compose (mode service)
|
|
|
|
```yaml
|
|
version: '3.8'
|
|
services:
|
|
webcap:
|
|
image: ghcr.io/zenika-web/webcap:latest
|
|
container_name: webcap
|
|
restart: unless-stopped
|
|
environment:
|
|
WEBCAP_SCHEDULE: "0 * * * *"
|
|
WEBCAP_URLS_FILE: /config/urls.txt
|
|
WEBCAP_OUTPUT_DIR: /captures
|
|
volumes:
|
|
- ./urls.txt:/config/urls.txt:ro
|
|
- webcap_captures:/captures
|
|
# Optionnel : cron déclenché via sidecar
|
|
|
|
volumes:
|
|
webcap_captures:
|
|
```
|
|
|
|
## 🔄 Alternatives
|
|
|
|
### Open Source
|
|
- [[app-archivebox]] — Plateforme d'archivage web complète, plus puissante.
|
|
- **Caddy + headless Chrome** — Capture manuelle.
|
|
- **Monolith** — CLI de capture web en Rust.
|
|
- **WARC** — Format d'archive web standard (projet Internet Archive).
|
|
|
|
### Propriétaires
|
|
- **Archive.today** — Service d'archive web public.
|
|
- **Pagefreezer** — Archiving web d'entreprise (compliance).
|
|
- **Smarsh / PageVault** — Solutions d'archivage web corporate.
|
|
|
|
## 🔐 Sécurité
|
|
- **HTTPS** : pas un service exposé, utilisé en interne.
|
|
- **Self-hosting** : attention à la **croissance du dossier de captures** (PDF/screenshots volumineux), purger régulièrement.
|
|
|
|
## 📚 Ressources
|
|
- [GitHub](https://github.com/zenika-web/webcap)
|
|
- [npm](https://www.npmjs.com/package/webcap)
|
|
|
|
## Pages Liées
|
|
- [[cat-archive]] — Catégorie Archive
|
|
- [[app-archivebox]] — Archivage web complet
|
|
- [[app-bichon]] — Archivage RSS
|
|
- [[recettes-docker-compose]] — Templates Docker
|