11 September 2011

Google Books, or how NOT to scan a book

I recently bought an old book on textiles ( "Weaving & needlecraftscolor course" by William and Doris Justema; I'll talk about it in another post) and in reading it I found a reference to an older work that sounded interesting... "De la loi du Contraste simultané des couleurs", by M.E. Chevreul.

Chevreul  was a chemist, and the director of the dye house at the Gobelin tapestry work since 1824. At some points he noticed that the material he had dyed black  did not appear to be black when it was woven. So he began to study the matter, and after some years of studies he wrote his book. I thought it would probably be very interesting, as it's very common to find books on colours directed to painters or illustrators, but colour in textiles doesn't work the same way...weaving yarns it's not like mixing paints or inks, you never really "mix" colours completely. In addition, the author worked in the tapestry field, and this too  made me wish to give a look at his book.
As the book was ancient enough to be out of copyright, I wondered whether it could be available on line for free (as I suppose a printed copy would be quite expensive; I haven't checked but I bet it is...) and I went to look for it on the Internet Archive.
Recentemente ho comprato un vecchio libro di argomento tessile ("Weaving & needlecraftscolor course" by William and Doris Justema, ne parlero' in un altro post) e leggendolo ho trovato un riferimento a un lavoro precedente che sembrava interessante...  "De la loi du Contraste simultané des couleurs", ("Della legge del contrasto simultaneo dei colori")di M.E. Chevreul.
 Chevreul era un chimico, e il direttore del laboratorio di tintura nella manifattura di arazzi Gobelin dal 1824. Ad in certo punto noto'  che i materiali che venivano tinti di nero non sembravano piu' neri quando venivano tessuti. Cosi' comincio' a studiare la questione, e al termine di alcuni anni di studio scrisse il suo libro. Ho pensato che sarebbe stato molto interessante, perche' e' facile trovare libri sui colori diretti a pittori o illustratori, ma il colore nei tessuti non funziona allo stesso modo... Tessere i filati non e' come mescolare vernici o inchiostri, non "mescoli" mai i colori completamente. Inoltre, l'autore lavorava nel campo degli arazzi, e anche questo mi ha fatto desiderare di dare un'occhiata al suo libro.
Siccome il libro e' abbastanza vecchio da essere fuori copyright, mi sono chiesta se potesse essere disponibile gratis online (perche' immagino che una copia stampata sia piuttosto costosa; non ho controllato ma scommetto che lo e'..) e sono andata a cercarlo  in Internet Archive

I was lucky... Or maybe not!
Well, the title was there, and actually there were three of them. I discovered that this book was printed in two volumes; one (over 700 pages long!) containing the text; the other , the "Atlas", contaning all the images (a common procedure in ancient times. Printing text and images was not so easy as today!).
 The text part was available in two different scans, but the Atlas, unfortunately, only in one... And it was made by Google , which was not very promising.
In the past, I had downloaded and deleted a large number of books scanned by Google, as they were unreadable... I hoped this would be better.
Unfortunately, it wasn't. The Atlas is  scanned so badly that I want to show it to you, because you wouldn't believe just words....And it's impossible that Google keeps boasting they scanned millions of books, and at the same time they work so badly! Maybe it's time they slow down a bit and start giving a look at their quality.
The book  begins with few pages of text... Two of the 4 pages look like this:
 Sono stata fortunata...O forse no!
Be', il titolo c'era, e anzi ce n'erano tre copie. Ho scoperto che questo libro era stampato in due volumi: uno (di oltre 700 pagine!) contenente il testo; l'altro , l'"Atlante", contenente tutte le immagini (una procedura usuale in tempi antichi. Stampare testi e immagini non era facile come adesso!)
La parte di testo era disponibile in sue scansioni diverse, ma l'Atlante sfortunatamente solo in una...Ed era realizzata da Google, il che' non era molto promettente.
In passato ho scaricato e cancellato un gran numero di libri scansionati da Google, perche' erano illeggibili... Speravo che stavolta andasse meglio.
Sfortunatamente, non e' stato cosi'. L'Atlante e' scansionato cosi' male che voglio mostrarlo perche' le sole parole non si crederbbero...Ed e' incredibile che Google continui a vantarsi di aver scansionato milioni di libri e contemporaneamente lavori cosi' male! Forse e' il momento che rallentino un po' e comincino a dare un'occhiata alla loro qualita'...
Il libro inizia con alcune pagine di testo...Due delle 4 pagine hanno quest'aspetto:
Uh? All the beginning of lines are cut away, as obviously the person who scanned the book didn't bother to center the page and didn't check that the scan was readable.
(This is VERY common in Google-scanned books, and led me to throwing away dozens of their scans of old classics.)
Oh, well, I said to myself, after all this is a book mainly of  pictures, maybe they didn't notice the text was wrong...So I went on.
But a few pages later something made me realize that images didn't get a better treatment...
 Eh? Tutti gli inizi di riga sono tagliati, perche' evidentemente la persona che ha scansionato il libro non si e' curata  di centrare la pagina e non ha controllato che la scansione fosse leggibile.
(questo e' MOLTO comune nei libri scansionati da Google, e mi ha costretto a buttare dozzine di scansioni di libri classici ).
Be', mi sono detta, dopotutto questo e' un libro principalmente di immagini, forse non hanno notato che il testo era sbagliato...Cosi' sono andata avanti.
Ma alcune pagine dopo qualcosa mi ha fatto capire che le immagini non hanno avuto un trattamento migliore...
 Very disappointing...
But the worst part was yet to come!
Because, I discovered, this book had a number of big plates that were large fold-out sheets. ALL of them were scanned carefully closed (paper trasparence show they were large prints with colourful dots)
Molto deludente...
Ma la parte peggiore doveva ancora arrivare! 
Perche', ho scoperto, questo libro contiene un certo numero di tavole di grande formato, inserite come fogli piegati. TUTTI sono stati scansionati accuratamente chiusi (solo in trasparenza appare che si trattava di grandi stampe con dei punti colorati)

These are only a  few pages; there are many more (all closed, unfortunately), I think they illustrate example of colour contrasts and it would be nice to see them :-)
At this point it was evident that the book was totally useless, but I went on to see, just out of curiosity.. Maybe there was something interesting! But  it was just a collection of scan mistakes....I think really this book scan summarizes all the things one should NOT do with a scanner!
For example, taking away the book from the scanner while it's being scanned... (this is what you will obtain... it's page 42)
Queste sono solo alcune pagine; ce ne sono molte di piu' (tutte chiuse, sfortunatamente), penso che illustrino esempi di contrasto tra colori e sarebbe carino vederle :-) ).
A questo punto era evidente che il libro era totalmente inutile, ma sono andata avanti a guardarlo, per curiosita'. Forse c'era qualcosa di interessante! Ma era soltanto una collezione di errori di scansione... Penso che veramente questo libro riassuma tutte le cose che NON si devono fare con uno scanner!
Ad esempio, togliere il libro dallo scanner mentre si sta facendo la scansione.... (questo e' quello che ottieni...la pagina 42)
Or scanning the book with your finger under it, which will lift it from the scanner and  make it appear blurry (never mind the finger, if only we could get  a readable text! This is page 47)
Oppure scansionare il libro con un dito sotto, cosa che lo manterra' sollevato dallo scanner e lo fara' apparire sfocato (pazienza per il dito, se almeno il testo fosse leggibile! Questa e' la pag. 47)
Pages from 53 to 60 look like page 42, just small blocks of scanned book in a white page...
On Page 62 there is another probably nice  image, but folded as usual...
Le pagine da 53 a 60 somigliano alla pagina 42, solo piccoli blocchi di scansione in una pagina bianca...
A pagina 62 c'e' un'immagine, probabilmente carina, ma come al solito piegata...

The rest of the pages are again unreadable blocks, until the end of the book. So much for Chevreul's book scanned by Google! 
Incidentally, I've looked on Google Books and they seem to have a different copy..The first few pages are scanned correctly (centered in the page, so no letter is missing), but nobody thought of folding out the larger pages again (is that such a queer idea? or people who make scans have never seen a fold-out page and don't know how it works?)...In addition, somebody decided that they could be showed in black and white, so except for a few pages in the beginning, the book is a black and white scan (which is a pity, because a part of the Atlas had been printed on colourful paper on purpose. And anyway, IMHO somebody *should* have thought that  showing a book on colour theory in B/W was not such a  good idea).
Le pagine rimanenti sono di nuovo blocchi illeggibili, fino alla fine del libro,
E questo e' tutto per il libro di Chevreul scansionato da Google!
Tra l'altro , ho guardato su Google Books e sembrano avere una copia diversa li'...Le prime pagine sono scansionate correttamente (centrate nella pagina, non mancano lettere), ma di nuovo nessuno ha pensato di aprire le pagine grandi  per farcele vedere (e' un'idea cosi' strana? O la gente che fa le scansioni  non ha mai visto una pagina piegata e non sa come funziona?)...Inoltre, qualcuno ha deciso che potevano essere mostrate in bianco e nero, cosi' tranne alcune pagine all'inizio del libro, la scansione e' in bianco e nero (che e' un peccato, perche' una parte dell'Atlante e' stampato volutamente su carta colorata. E in ogni caso, a mio parere,  qualcuno *avrebbe dovuto*  pensare che mostrare in bianco e nero un libro sulla teoria dei colori non era una grande idea).

I can only say that LUCKILY the text part is available as a scan made by the Internet Archive (with fundings by the University of Ottawa) and it's perfect, but the Atlas with the images exists only in this scan made by Google, and it's a real pity.
I signalled the problems to Google (and I left a negative review); I have no idea whether they'll make something about it, but this is not the point.
It's obvious that NOBODY bothered to check (not even very quickly) the scan of this book, neither the person who physically scanned the book, nor anybody at Google...
In the past, as I said, I have deleted lots of scans that were totally or partially unreadable... All of them were made by Google.
The Gutenberg Project works differently, they retype all the text and they have several levels of proofreadings...Their works are perfect by the time they are released. Other scanning projects release very good PDFs, even of books in unusual formats or in bad conditions, or full of images.
My estimate is that about one fourth - one third of  books scanned by Google that I downloaded was flawed to some degree. Sometimes they are obviously bad (like in this case), sometimes they look right, and you notice pieces are missing only when you start reading them ...(such as in a copy of one of Dumas' novels where the last two lines of every page were missing...) 
This is my estimate done on the scans I downloaded myself; of course I might have been exceptionally unlucky, but my strong impression  is that the percentage of their faulty scans is an important number (not one out of a thousand...)
My impression is that they don't make any check on their scanned  works, and maybe  -MAYBE- fix things only when somebody complains...Which is a way of working which would be considered unacceptable in any other place. I can't understand how the same company who gave us Google Earth and Street Views can produce such a lame project as Google Books...
And I feel really badly when I read that so many public libraries are eliminating their copies of books that "are available on Google Books".They are trusting blindly a work that, most probably,  nobody checked.
Ok, I can admit this book was not an "easy one" to scan...Pages were of different format, even in different colours , with fold-out sheets...I can understand it was not an easy work. But if this was out of their technical possibilities, they should have left this book aside instead of scanning it so badly as to make it useless. I only hope no library gave away their copy because this book is "available" on the internet... Who will save books from Google Books?
Posso solo dire che PER FORTUNA la parte di testo e' disponibile in una scansione fatta dall'Internet Archive  (con fondi dell'Universita' di Ottawa)  ed e' perfetta, ma l'Atlante con le immagini  esiste solo in questa scansione fatta da Google, ed e' un vero peccato.
Ho segnalato a Google i problemi (e ho lasciato una recensione negativa); non ho idea se faranno qualcosa a riguardo, ma non e' questo il punto.
E' ovvio che NESSUNO si e' scomodato a controllare (nemmeno molto superficialmente) la scansione di questo libro, ne' la persona che l'ha eseguita fisicamente, ne' nessun altro a Google...
In passato, come ho detto, ho cancellato un sacco di scansioni che erano parzialmente o totalmente illeggibili... Tutte erano fatte da Google.
Il Progetto Gutenberg lavora diversamente, il testo viene completamente ribattuto e ci sono diversi livelli di controlli.. I loro lavori sono perfetti quando vengono rilasciati. Altri progetti di scansionamenti rilasciano ottimi PDF, anche di libri in formati strani, o in cattive condizioni, oppure con tante immagini.
La mia stima e' che circa un quarto - un terzo dei libri che ho scaricato da Google fossero difettosi in qualche modo. A volte erano evidentemente fatti male (come in questo caso) , altre volte sembravano a posto, finche' non cominciavi a leggerli e vedevi che mancavano dei pezzi (come in una copia di uno dei romanzi di Dumas in cui mancavano le ultime due righe di ogni pagina)
Questa e' la stima che ho fatto sulle copie che ho scaricato io; naturalmente e' possibile che io sia stata eccezionalmente sfortunata, ma ho la decisa impressione che la percentuale di loro scansioni difettose sia un numero importante (non una su mille...).
La mia impressione e' che nessun controllo venga fatto su questi lavori, e che forse -FORSE- le cose vengano sistemate solo quando qualcuno si lamenta....Che e' un modo di lavorare che sarebbe considerato inaccettabile in qualunque altro ambito. Non riesco a capire come la stessa compagnia che ci ha dato Google Earth e Street View possa produrre un progetto fatto male come Google Books...
E mi sento veramente male quando leggo che tante biblioteche eliminano le loro copie cartacee dei libri che "sono disponibili in Google Books". Si fidano ciecamente di un lavoro che probabilmente non e' stato controllato da nessuno.
OK, ammetto che questo libro non era un "lavoro facile"... Le pagine avevano formati differenti, erano anche in colori diversi, con fogli pieghevoli... Posso capire che non fosse facile. Ma se fosse stato fuori dalle loro possibilita' tecniche, le persone di Google avrebbero dovuto semplicemente mettere da parte questo libro invece di farne una scansione cosi' malfatta da essere inutilizzabile. Spero solo che nessuna biblioteca abbia dato via la sua copia perche' questo libro ora e' "disponibile" su internet... Chi salvera' i libri da Google Books?


3 comments:

fabriquefantastique said...

my goodness, there is a lot of information and I have a lot to learn

Mairi said...

Che peccato :( Cmq Elena grazie per questo post, non sapevo che i libri fuori da copyright esistessero scansionati in rete O__o mi hai aperto un mondo!!!

Radka said...

This would be funny, if it wasn't so sad!