Za utemeljitelja teorije množic velja Georg Ferdinand Cantor. Po njegovi definiciji iz leta 1877 je množica »združitev določenih, po videzu ali razmisleku dobro razločljivih, objektov ki jim pravimo elementi množice v eno celoto«. Teorijo množic na podlagi te definicije so pozneje označili za naivno, saj vodi v protislovja; še posebej tam, kjer so uvedli množice, ki bi kot element morale vsebovati same sebe. Najbolj znan je Russllova antinomija.
Teorija tipov
V izogib tem protislovjem je Russell sam predlagal postopno izgradnjo teorije množic, in v ta namen leta 1903 skupaj z Whiteheadom razvil teorijo tipov. Po njej mora imeti množica vedno višji tip kot njeni elementi. Izjav, kot je »ta množica vsebuje sebe kot element«, se v tej teoriji sploh ne da izraziti.
Teorija tipov je bila pozneje nadgrajena v aksiomatično teorijo množic. Za to teorijo se da dokazati, da je neprotislovna, a žal njen jezikovni besednjak ni dovolj močan, da bi z njim lahko zgradili vso matematiko.
Teorija množic brez tipov
Drugi poskusi, da bi aksiomatsko zgradili teorijo množic, so spet posegli po predikatni logikibrez tipov. Osnovni pojmi so tu samo še:
ena sama vrsta objektov in
relacije med njimi.
Najbolj znan sistem te vrste je Zermelo-Fraenklova teorija množic, ki jo je leta 1908 utemeljil Ernst Zermelo, dokončno obliko pa je dobila leta 1922 po delih Adolfa Fraenkla. Njun sistem pogosto označimo s kratico »ZF«. Zermelo je teoriji dodal tudi - ne splošno sprejeti - aksiom izbire. V tej obliki je znana kot »teorija množic ZFC« (črka C pride iz angleškega izraza za izbiro: choice). Prevladujoča večina matematikov dandanes sprejema ZFC kot primerno podlago za sodobno matematiko.
Edina osnovna relacija v ZF ali ZFC je (izgovori je element množice), npr. xM, ko je x element v množici M. Obstoja »praelementov«, ki ne bi bili množice, v tej teoriji ne predpostavljamo.
Aksiomi so oblikovani tako, da se izognemo znanim protislovjem Cantorjeve teorije množic. Predvsem sta tu pomembna aksiom regularnosti in aksiom določitve, ki onemogočata oblikovanje Russllove antinomije. Kljub temu dokaza za neprotislovnost Zermelo-Fraenklove teorije ni. V okviru matematike, ki temelji na Zermelo-Fraenklovi teoriji množic, se tega tudi ne da dokazati (Gödlov izrek o nepopolnosti).
Izpopolnitev Cantorjeve teorije množic
Tudi matematiki, ki niso želeli graditi na aksiomatični teoriji množic, so morali zagotoviti, da ni prišlo do znanih protislovij. Kot primer navedimo Ericha Kamkeja, katerega delo Teorija množic (Mengelehre) je od leta 1928 izšlo v številnih različicah in lahko služi kot standarden uvod:
Kamke navaja Cantorjevo definicijo in razlaga:
(a) »Naj bo neka dobro definirana lastnost(…), ki velja za vsaj eno 'reč' ali neki izrek, ki velja za najmanj eno stvar…«;
Na poznejšem mestu Kamke dodaja: »Tako je pojem množice izpeljan iz pojma skupine podobnih, točna določitev tega pojma pa tudi nikakor ni lažja(…) Vsekakor obstajajo nekatere lastnosti, ki po splošnem mnenju nedvoumno določajo množico, npr. množico naravnih števil.« Kamkejev navedek se nato nadaljuje:
»(…)nadalje naj bo skupina 'reči' m z lastnostjo neka točno določena skupina(…)«
K temu v opombi piše: »Ali to velja, je treba skrbno raziskati, kot je to v matematiki tudi sicer običaj.« in nato nadaljuje:
(b) »Med dejanjem definiranja uvedemo skupino 'reči' m z lastnostjo kot novo 'reč' in ji rečemo 'množica' M ali M(m);(…)«
Kot posledica tega po Kamkeju sledi:
»Ker moramo med grajenje množice ustvariti neko novo reč, neki nov pojem, (…), je treba množico gledati kot različno od vsakega od njenih elementov (…) Potemtakem so naslednje 'množice' nesmiselne, saj so same po sebi protislovne:
(α) vsaka množica, ki vsebuje samo sebe kot element;
(β) množica vseh množic, ki bi kot element morala vsebovati tudi sebe;
(γ) množica vseh množic, ki ne vsebujejo sebe kot element (Russell), ker po prejšnjem ničemur kot (β) ne rečemo 'množica'.«
Tukaj je torej nakazan hierarhičen pojem množice (podobno kot v teoriji tipov). Upravičenost svojega ravnanja vidi Kamke v tem, da ne obstajajo »kakršnikoli znaki (…) resnih neodpravljivih protislovij«.
Kajpada ima takšno omejevanja pojma množice za posledico, da vsekakor pač obstajajo »določeni dobro razločljivi objekti (…) našega uma«, ki jih je pojmovno moč »narediti za celoto«, ne da bi smeli tej celoti reči »množica«. (En primer je skupina vseh množic, drug primer skupina kardinalnih števil.) To je povsem proti Cantorjevim nameram.
Če je treba nekako vključiti tudi takšne »ne-množice«, se včasih uporablja pojem razreda.
Posledice za matematiko kot znanost (Bourbaki)
Cantorjeva zasnova za matematike poznega 19. stoletja nikakor ni bila videti revolucionarna. Oglašanje logike kot matematične discipline je bilo slabo. Posploševanje na tej ravni se je zdelo odvečno in, ko so se pri tem še pojavljale antinomije, tečno. Poincaré se je posmehoval: »Logika ni nič več sterilna - zdaj je priča protislovjem.«
V prvi tretjini 20. stoletja se je, najprej pretežno med mladimi matematiki, splošno uveljavilo mnenje, da je teorija množic ključno pomemben temelj za strukturiranje matematike. Presenetljivo je ta revalvacija potekala vzporedno s spoznanjem, da so obstoječi problemi temeljne narave in načelno neodločljivi (glej Gödlova izreka o neodločljivosti). Kar se je strokovnjakom zdela kriza temeljev matematike, je komaj zadevalo večino matematičnega dela.
Za to zavedanje so značilni napori skupine matematikov pod skupnim psevdonimomNicolas Bourbaki, ki so želeli vso matematiko utemeljiti na novih temeljih teorije množic.
Odločitev med možnimi temelji je bila sprejeta pragmatično: Zermelov sistem aksiomov brez tipov je bil takrat videti lažji za uporabo kot Russllova teorija tipov. Danes je popolnoma sprejet kot temelj matematike.
Ob koncem 1960. let so bile osnovne zamisli teorije števil uvedene v šolski pouk. Še posebej temeljito se je spremenilo učenje računanja v prvih razredih osnovne šole; to je zdaj postalo del pouka matematike. Pojem množice so začeli delno pretirano poudarjati, kar so kmalu omilili.
Alternativo teoriji množic je moč zgraditi s teorijo kategorij, s pomočjo definicije toposov.
Teorija množic in računalništvo
Podlaga za računalništvo ne leži v sami teoriji množic ZFC, saj je ta tako zelo nekonstruktivna, da jo je komaj moč zajeti v pojmu algoritma. Zato so od 1970. let razvili konstruktivistično računanje, ki vsebuje pojme klasifikacije podatkovnih tipov, itd. Uveljavilo se je prepričanje, da so te teorije po univerzalnosti in obsegu uporabe enako primerne kot teorija množic.