Un jeu de données (en anglaisdataset ou data set) est un ensemble de valeurs « organisées » ou « contextualisées » (alias « données »), où chaque valeur est associée à une variable (ou attribut) et à une observation. Une variable décrit l'ensemble des valeurs décrivant le même attribut et une observation contient l'ensemble des valeurs décrivant les attributs d'une unité (ou individu statistique)[1].
Si nous sommes dans une base de données on peut le voir ainsi : chaque colonne est une propriété donc un attribut ou variable, et chaque ligne est une observation puisque décrite par un ensemble d'attributs.
Structure d'un jeu de données
Un jeu de données peut avoir une structure tabulaire, par exemple un fichier CSV, une structure d'arbre, comme dans un fichier JSON ou XML, ou encore une structure de graphe, comme dans le RDF.
Lorsque les données sont tabulaires, en principe, chaque ligne correspond à une observation et chaque colonne à une variable[1].