HathiTrust è una biblioteca digitale permanente ed un'organizzazione senza scopo di lucro gestita dall'Università del Michigan, nata nell'ottobre 2008 da un consorzio di biblioteche universitarie specialistiche dell'America del Nord.
Le istituzioni aderenti operano nel campo della catalogazione e digitalizzazione dei sapere in uno o più campi della ricerca accademica e scientifica.
Il sito hathitrust.org è proprietario, e i contenuti digitali sono liberamente accessibili a docenti, ricercatori, studenti, personale delle istituzioni aderenti al progetto.
Parte di questi contenuti è rilasciata nel pubblico dominio, consultabile gratuitamente senza necessità di iscrizione, ovvero secondo la massima diffusione possibile compatibilmente con le limitazioni previste dalla legge (es. copyright) e dagli accordi fra privati.
Origine del nome
Hathi (pronunciato "hah-tee") è una parola Hindi che significa "elefante", animale simbolo della memoria, noto per la sua capacità di ricordare nel lungo termine[2]
Storia
HathiTrust nasce nel 2008 da un partenariato di 60 biblioteche aderenti alla Big Ten Academic Alliance e all'Università della California, suddivise fra Stati Uniti, California e Canada, che condividono un comune modello organizzativo e di gestione
Da prima del 2011[3], il sito applica restrizioni all'accesso e il geoblocking. In base al Copyright Act statunitense, si presume che il detentore dei diritti d'autore non desideri porre porzioni significative della propria opera nel pubblico dominio e pertanto la visualizzazione delle opere successive al 1879 è parzialmente consentita soltanto agli utenti iscritti di HathiTrust.
A sua volta, la registrazione non è gratuita ed è riservata ai membri di una lista di istituzioni accademiche e culturali autorizzate da HathiTrust, che preventivamente verifica con i vari partner l'effettiva appartenenza del richiedente[4] (ad esempio: studenti immatricolati, docenti, ricercatori, personale amministrativo, ecc.).
In base alle differenti legislazioni nazionali sul diritto d'autore, HathiTrust blocca l'accesso a specifiche risorse e relativi indirizzi web, selettivamente per chi è connesso a Internet da determinati Paesi. È rimasto libero soltanto l'accesso ai contenuti per i quali l'autore ha esplicitamente permesso il libero utilizzo dell'opera nel pubblico dominio, ovvero per i quali HathiTrust ha potuto accertare l'assenza di un legittimo detentore dei diritti.
A novembre 2012, gli avvocati di Google, e indirettamente Hathitrust, hanno vinto una causa civile con l'associazione americana Authors Guild[5][6]. Il giudice distrettuale dello Stato di New York si è pronunciato respingendo l'accusa di violazione di copyright avanzata dalla Author's Guild, sostenendo che l'attività di Google Books rientrava nella fattispecie del fair use, previsto negli U.S.A.[7]
Secondo il sito dell'Università del Michigan, l'offerta bibliotecaria di HathiTrust comprenderebbe un accesso completo alle seguenti categorie di contenuti che non sono al 100% consultabili dal sito di Google Books[10]:
libri digitalizzati dall'Internet Archive e dalle biblioteche aderenti, ma non da Google (dell'ordine di migliaia di titoli);
libri per i quali non è stato rinnovato il diritto d'autore, pubblicati:
negli Stati Uniti, dal 1923 al 1963 (circa 170.000 titoli),
nel Regno Unito, dal 1874 al 1944,
in Canada e Australia, dal 1894 al 1964.
Il Commonwealth contribuisce per ulteriori circa 100.000 volumi.
Complessivamente, l'HathiTrust indicizza e ospita 13.5 milioni di volumi (di cui: 6.8 milioni di libri, più di 630.000 documenti governativi, e 350.000 pubblicazioni seriali, quali riviste specialistiche ed accademiche).
Almeno una quota pari al 38.5% dell'intero catalogo, corrispondente a 5.1 milioni di volumi, è resa disponibile per la consultazione in modalità Open View.
Ad aprile 2011, HathiTrust indicizzava più di 7.6 milioni di volumi, il testo dei quali era ricercabile con la tecnologia di riconoscimento ottico dei caratteri (OCR). Una quota del 24%, pari a 1.8 milioni id volumi era nel pubblico dominio[11].
A marzo 2015, il catalogo comprendeva 9 milioni di volumi, di cui 5 milioni di libro e più di 240.000 pubblicazioni seriali, con una quota di accesso testuale pari al 27%, pari a 2.5 milioni di titoli[10].
Nella codifica adottata da HathiTrust, i volumi sono identificati in base all'istituzione di provenienza. Ognuna di esse ha una propria abbreviazione identificativa[12].
Per i singoli record bibliografici esiste un insieme di metadati, la cui specifica è pubblica ed è descritta dallo standard MARC 21[14].
Ricerca
L'utente effettua una ricerca per parole chiave che genera una lista di risultati navigabile.
Ognuno di essi è il link ad una pagina che riporta le seguenti informazioni:
HathiTrust consente di aderire ad istituzioni accademiche e centri di ricerca di tutto il mondo. Solo questi soggetti accreditati possono inserire contenuti digitali direttamente nel sito[15].
HathiTrust contiene la copia di numerosi file presenti nell'Internet Archive, che permette ad utenti anonimi di salvare in modo permanente la copia di una pagina web.
Il formato MARCXML garantisce l'interoperabilità dei due archivi digitali[16].
«Local item identifiers must be less than 32 characters and alpha characters must be case-insensitive. The ARK identifier will used as the local item identifier for volumes downloaded from the Internet Archive.»