mardi 14 octobre 2014

Scanner ses livres

Le scan maison : un vrai phénomène de société. Cette pratique en développement consiste à numériser les exemplaires papiers que l'on possède pour en profiter aussi sous forme numérique. Voilà une tendance qui doit faire frémir les éditeurs du monde entier : le scan des livres papier effectué par les utilisateurs eux-mêmes. Non seulement les particuliers numérisent eux-mêmes leurs propres livres papier, mais des sociétés se créent pour répondre à une importante demande.

Faire soi-même ses propres ebooks est donc une tendance qui prend de l’ampleur, au point que les ventes de scanners auraient explosé. Les utilisateurs n’hésitent pas à détruire leurs livres en les coupant avant la reliure pour avoir une suite de pages. Les ventes de massicots ont d’ailleurs explosé en même temps que les ventes de scanners. Equipé d’un scanner multi-pages, il suffit ensuite de mettre son « livre » dans le réservoir et le scan s’effectue page par page sans intervention humaine.


Pourquoi faire ses propres livres ? 

Certains évoquent la mauvaise qualité des fichiers ePub que l'on trouve dans le commerce (2 à 3% sont de très mauvaise qualité, 20 à 30 % des fichiers comportent des erreurs qui rendent la lecture parfois difficile). 

Souvent, dans ces fichiers, la police n'est pas adaptée et est bloquée, alors qu'on devrait pouvoir la changer à la volée. Souvent, les changements de pages sont laborieux : nécessitant parfois d'attendre plusieurs minutes pour passer de la couverture au premier chapitre. Les retours chariots n'apparaissent pas sur les fichiers, alors que transformés en ePub, ils peuvent générer des espacements qui rendent la lecture pénible. Des polices de caractères trop lourdes, des feuilles de styles surchargés... trop de lignes de codes... La raison de ces lourdeurs peut s’expliquer par le fait que les éditeurs n'ont pas l'habitude de travailler sur ces formats. Ils savent corriger un fichier Word ou InDesign pour faire un livre, mais pas pour faire un bon ePub. 

Au-delà d'un désir de perfection, il y a également une autre motivation. Celle de devoir conserver plusieurs milliers de livres papier dans une bibliothèque. Cela prend de la place ! Enfin, bien sûr, il n’est pas facile de trouver les versions ebooks de ses livres papier (surtout les anciens). D’autres raisons créent ce besoin, comme des prix élevés, des problèmes de copyright et de protection numériques de fichier.

Comment numériser ?

La numérisation personnelle commence d'abord par une numérisation. Pour cela, trois méthodes sont possibles. Utiliser un scanner à plat classique, un appareil photo numérique ou un scanner à chargeur vertical.

Le scanner à plat

Le Scanner à plat est bon marché, il ne détruit pas les livres, mais il a deux défauts. Il est lent, très lent (il faut manipuler le livre pour chaque page) et il provoque des déformations et ombrages sur la page scannée ce qui rend le passage d'un logiciel OCR, permettant de faire de la reconnaissance de caractère, parfois un peu plus difficile. Le temps moyen pour scanner un livre de 300 pages via cette méthode est de 3 à 4 heures.

L’appareil photo numérique

L'utilisation d'un appareil photo numérique nécessite un peu de préparation, parce qu'il faut être deux pour l’opération. Le plus pratique est encore de construire un support pour rendre l'opération possible. 

Pour numériser 300 pages, il faut là de 45 minutes à 1 heure. Mais demain, certaines techniques permettront d'aller encore plus vite. Le souci c'est d'éliminer la déformation des pages et les ombrages que génère la photographie. Mais il existe des logiciels qui savent corriger ces déformations (ScanTailor, Omnipage et Abbyy FineReader).

Le scanner à chargeur vertical (le scan destructif)

Enfin, il y a le scanner à chargeur,. Le scan est rapide et très propre. L'inconvénient est qu'il est destructif, puisqu'il faut détruire la tranche du livre. On « massicote » le livre pour avoir une série de feuilles, qu’on va alors introduire dans le chargeur de documents d’un scanner conçu pour scanner en masse (comme on en trouve dans les entreprises). On perd donc le livre, et en contrepartie, plus la peine de passer des heures à tourner les pages à la main. 

Le système de la coupe permet aussi d’avoir des pages parfaitement droites. La qualité est parfaite. Il n'y a pas de déformation. On peut ainsi scanner 300 pages en 15 minutes.

Le scan effectué par des entreprises spécialisées….

Au Japon, aux Etats-Unis, la demande est tellement forte que des entreprises sont venues à la rescousse des particuliers pour proposer le scan des ebooks. On en compterait déjà une soixantaine. 

Corriger et encore corriger

Mais la numérisation ne fait pas tout. D'abord parce qu'elle génère des erreurs, ensuite, parce que comme dans tout processus d'édition, il est nécessaire de ne pas s'en tenir aux machines.
Une fois qu'on a numérisé le livre en un ensemble d'images des pages, il faut le passer dans un logiciel de reconnaissance optique des caractères (Abbyy FineReader, Omnipage Pro, Read iris). Si le PDF sait désormais conserver le texte de l'image scannée, il ne permet pas de créer un fichier souple, adaptable à tous supports. En récupérant le seul texte, via ces logiciels OCR, on peut créer des formats de sortie multiples : .doc, .html, .pdf, .epub, .mobi... Les logiciels open source dans le domaine sont encore peu performants par rapport aux logiciels propriétaires. Souvent la reconnaissance de caractère se passe bien, notamment pour les notes de bas de page, qui sont de mieux en mieux reconnues et bien intégrables.

Bien sûr, l'OCR n'est jamais parfait non plus. Il produit des coquilles liées à une mauvaise reconnaissance ou à des défauts du support papier originel. Les "Il" deviennent des 11. Les "e" ont tendance à être transformés en "c". Passer un logiciel OCR prend en moyenne 20 minutes pour 300 pages. Mais il faut ensuite le corriger. 

Utiliser des Macros pour chercher-remplacer les erreurs les plus courantes. Il faut également supprimer les styles générés automatiquement, mettre le document en forme, créer un squelette simple qu'il faudra appliquer (avec des styles permettant de baliser les chapitres et de générer une table des matières : ce qui est souvent rare sur les ePub du commerce). Bref, il faut nettoyer et préparer la copie pour pouvoir la relire. Il faut appliquer des macros pour faire des vérifications automatiques typographiques (gérer les espaces insécables, remplacer les trois petits points (qui ne forment qu'un caractère) par des vrais trois petits points (3 caractères). Ces macros sont partagées et améliorées par la communauté des scanneurs de livres. Elles pourraient servir à bien des éditeurs pour nettoyer les fichiers Word d'auteurs ! Le plus souvent, il faut passer le texte dans 3 à 4 macros, certaines très spécialisées, sachant par exemple corriger les problèmes liés aux listes de dialogues, d'autres permettant de baliser les gras et les italiques...

Il faut encore vérifier les insécables, les apostrophes... Faire passer la correction orthographique de Word en jugeant de son application avec attention, parce qu'il y a des oeuvres où les fautes sont voulues par l'auteur et des tournures que Word ne sait pas comprendre, comme quand on fait parler un personnage bègue par exemple. Comme dans l'édition traditionnelle, ce travail nécessite une relecture humaine... d'où le besoin d'un aspect communautaire, de relecture et de relecteurs. 

Enfin, il faut passer à la génération multiformat, le plus souvent via le logiciel Calibre. On peut ensuite générer une distribution OPDS de son catalogue de livre, sur un serveur, pour qu'ils soient accessibles depuis Stanza sur iPhone ou Aldiko sur Androïd, et accéder ainsi à ses livres de partout, depuis une simple connexion 3G ou Wi-Fi.

En tant qu'amateurs ou auteurs, via cet ensemble d'outils, on peut avoir accès à un cycle de diffusion complet. Rééditer un livre numérique de manière artisanale, mais sérieuse ne prend qu'une journée de travail. Sans expertise, sans payer des fortunes des développeurs spécialisés, sans vouloir faire des choses trop compliquées... C'est accessible. C'est propre.


Un risque de « contagion » ?

Si l’offre légale ne se constitue pas ou si elle n’est pas intéressante, ce genre de solution se développera. L’expérience montre à quel point les consommateurs peuvent être ingénieux lorsqu’ils veulent quelque chose et que personne n’est là pour répondre à la demande.

Dans notre pays à la fois champion des lois pour le livre numérique et champion du piratage (n’y voyons pas de cause à effet), il est presque certain que l’on ne permettra pas que des entreprises numérisent des livres papier pour en faire des ebooks, mais aussi que ce genre de solution pourrait se développer, dans un but un peu différent : partager les fichiers. A l’ère numérique, Le pire ennemi de l’édition pourrait donc finalement prendre la forme d’un scanner capable de scanner tout seul un ouvrage entier, et à un prix accessible pour le grand public.

Une communauté active

La communauté est active. Elle partage et améliore sans cesse ses macros. Calibre est mis à jour en moyenne toutes les 2 semaines. Elle est parfois plus attentive que les auteurs et éditeurs à leurs erreurs. L'édition à du mal à savoir intégrer les corrections post-impression. Combien de livres de poche, même parmi les classiques, comportent encore des fautes reproduites d'édition en édition, parfois depuis des dizaines d'années, alors que celles-ci ont sûrement été signalées aux éditeurs de multiples fois…

La relecture est le travail le plus long, et il y a peu d'outils permettant de faire ce travail de manière collaborative. Si des particuliers peuvent avoir de meilleurs rendus que les professionnels, cela signifie que de petits éditeurs peuvent aussi utiliser ces techniques. C'est juste quelques heures de travail. Le support numérique n'est pas réservé à des professionnels ou à de grosses entreprises.


Le phénomène n'est pas nouveau. Il y a 10 ans, nombreux étaient ceux qui scannaient en mode pure texte. Le fonds de classiques de Gutenberg s'est constitué ainsi, via une communauté de partage, où les gens scannaient voire retranscrivaient les grands classiques de la littérature. Aujourd'hui, la communauté est renouvelée par des femmes au foyer, qui lisent beaucoup, qui se sont fait offrir un reader et qui commencent à scanner certains livres auxquels elles tiennent. Ainsi que par des retraités qui veulent disposer de livres qu'ils conservent dans une maison secondaire par exemple... 

Hors BD, la communauté comporte peu d'adolescents ou de geek, comme on le croit trop souvent. On y trouve plutôt des gens âgés, retraités, des femmes... Ceux qui viennent lire des livres numérisés sur des plateformes de partage sont d'ailleurs plutôt des adultes que des jeunes.

Bien sûr, beaucoup de ces livres sont numérisés sans autorisation des auteurs et éditeurs. Dans le cadre d'une copie privée, cela est d'ailleurs tout à fait légal. Le problème c'est quand ces livres entrent dans des circuits de partages en ligne…

Aucun commentaire:

Enregistrer un commentaire