Il Calgary corpus è una raccolta di file di testo e binari utilizzata comunemente negli anni '90 per il confronto degli algoritmi di compressione dei dati.
È stato creato nel 1987 da Ian Witten, Tim Bell e John Clearly della Università di Calgary.
Nel 1997 è stato sostituito dal Canterbury corpus[1].
Contenuto
Nella sua forma più comunemente usata il corpus consiste nei seguenti 14 file per una dimensione totale di 3.141.622 byte.
Dimensione (byte) |
Nome del file |
Descrizione
|
111,261 |
BIB |
testo ASCII in formato UNIX "refer" – 725 riferimenti bibliografici.
|
768,771 |
BOOK1 |
testo ASCII non formattato – Thomas Hardy: Far from the Madding Crowd.
|
610,856 |
BOOK2 |
testo ASCII formato UNIX "troff" – Witten: Principles of Computer Speech.
|
102,400 |
GEO |
numeri a 32 bit in formato IBM floating point – dati sismici.
|
377,109 |
NEWS |
testo ASCII – file batch USENET su vari argomenti.
|
21,504 |
OBJ1 |
programma eseguibile VAX – compilazione di PROGP.
|
246,814 |
OBJ2 |
programma eseguibile Macintosh – "Knowledge Support System".
|
53,161 |
PAPER1 |
formato UNIX "troff" – Witten, Neal, Cleary: Arithmetic Coding for Data Compression.
|
82,199 |
PAPER2 |
formato UNIX "troff" – Witten: Computer (in)security.
|
513,216 |
PIC |
immagine bitmap 1728 x 2376 (MSB first): testo in francese e diagrammi lineari.
|
39,611 |
PROGC |
codice sorgente in C – UNIX compress v4.0.
|
71,646 |
PROGL |
codice sorgente in Lisp – software di sistema.
|
49,379 |
PROGP |
codice sorgente in Pascal – programma per valutare la compressione PPM.
|
93,695 |
TRANS |
ASCII e caratteri di controllo – trascrizione di una sessione di terminale.
|
Ne esiste anche una variante meno utilizzata con 18 file che include 4 file di testo in formato UNIX "troff" aggiuntivi: PAPER3, PAPER4, PAPER5, PAPER6.
Note
Collegamenti esterni