VisionOCR
Convertissez vos PDFs scannés en documents Word éditables avec une précision de 99 %+ — préservation du formatage, cache intelligent et support de 60+ langues grâce à Google Cloud Vision API.
Discuter d'un projet similaireRéponse courte
VisionOCR est un outil CLI Python développé pour transformer des PDFs scannés en documents Word (.docx) fidèles à l'original. Grâce à un pipeline en 4 étapes s'appuyant sur Google Cloud Vision API, il détecte le texte avec une précision supérieure à 99 %, analyse le formatage (polices, alignements, espacements) et reconstruit un document Word préservant la mise en page d'origine. Un cache intelligent SHA-256 avec TTL de 30 jours élimine les appels API redondants, ramenant le coût des retraitements à zéro.
Contexte & Défis
Pourquoi les solutions de conversion PDF-to-Word classiques ne suffisent pas
La conversion de documents scannés en fichiers éditables reste un défi majeur pour les entreprises et les professionnels. Les outils OCR classiques offrent une précision insuffisante, perdent le formatage d'origine et facturent chaque appel API sans mécanisme de cache — un processus coûteux, imprécis et chronophage.
Précision OCR limitée
Les outils OCR classiques offrent une précision de 85-90 %, insuffisante pour des documents professionnels, anciens ou scannés en basse résolution.
Perte de formatage systématique
Polices, alignements, tailles de texte et espacements sont rarement préservés lors de la conversion, nécessitant une remise en page manuelle chronophage.
Support multilingue insuffisant
La plupart des outils ne gèrent correctement que quelques langues, limitant leur usage dans un contexte international ou multilingue.
Coûts API non maîtrisés
Chaque appel à un service OCR cloud coûte, et sans mécanisme de cache intégré, les retraitements multiplient inutilement la facture.
Périmètre fonctionnel
Documents scannés : livres, factures, administratifs, manuels techniques. Traitement multi-pages avec sélection par plage ou liste. Support de 60+ langues avec détection automatique. Résolution configurable de 300 à 600+ DPI.
Contraintes principales
Précision OCR cible > 99 % sur tout type de document · Préservation fidèle du formatage (polices, styles, alignements) · Coûts maîtrisés via cache intelligent avec TTL 30 jours · Compatibilité cross-platform : Linux, macOS, Windows.
Objectifs & Périmètre
Trois axes stratégiques pour une conversion PDF-to-Word de qualité professionnelle
Objectif stratégique
Démocratiser l'OCR professionnel : rendre accessible une conversion PDF-to-Word de qualité supérieure via un outil CLI simple, open-source et extensible.
Objectif opérationnel
Automatiser le pipeline complet — du PDF brut au document Word formaté — avec traitement par lot et cache intelligent.
Objectif technique
Maîtriser les coûts Google Cloud Vision API grâce à un cache disque persistant SHA-256 et une compression automatique des images > 20 MB.
Stack Technique
Les technologies et librairies au cœur de VisionOCR
OCR & Vision
Traitement PDF
Génération Word
Analyse & ML
CLI & Configuration
Performance & Cache
Pattern différenciant — Cache intelligent SHA-256 : contrairement aux outils OCR classiques qui facturent chaque traitement, VisionOCR utilise un hash SHA-256 du contenu de chaque image pour créer une clé de cache unique. Les résultats OCR sont stockés localement via diskcache avec un TTL de 30 jours, éliminant les appels API redondants. Résultat : le coût de retraitement tombe à zéro, et le temps de traitement des documents déjà analysés est instantané.
Schémas d'Architecture
Vue d'ensemble de l'application et du pipeline de traitement OCR
Résultats, Gains & ROI
Des gains mesurés sur la conversion et le traitement documentaire
| Indicateur | OCR classique | Avec VisionOCR | Gain |
|---|---|---|---|
| Précision OCR | 85-90 % | 99 %+ | +10 à +15 points |
| Préservation du formatage | Aucune ou partielle | Polices, alignements, espacements | Formatage fidèle |
| Support langues | 5-10 langues | 60+ langues avec détection auto | ×6 à ×12 |
| Coût retraitement | Identique au 1er traitement | $0 (cache SHA-256) | −100 % |
| Interface | GUI complexe | CLI simple, scriptable | Automatisable |
| Temps par page | Variable, souvent > 10 s | 2-3 s (300 DPI) | ~×4 plus rapide |
Gains qualitatifs
Open Source
Code libre sous licence MIT. Extensible, auditable, communautaire.
Cross-platform
Compatible Linux, macOS et Windows. Scripts d'installation automatiques.
Cache intelligent
Réduit les coûts API de 100 % sur les retraitements grâce au hash SHA-256.
Formatage fidèle
Préservation des polices, styles, alignements et espacements du document original.
CLI scriptable
Intégrable dans tout pipeline automatisé. Batch processing natif.
Logging avancé
Loguru avec rotation, niveaux de verbosité (-v, -vv, -vvv) et statistiques API.