Grep

grep (search globally for a regular expression and print) on Unix-käyttöjärjestelmän komentoriviohjelma, joka etsii säännöllisillä lausekkeilla määriteltyjä merkkijonoja tiedostoista.[1] Ohjelman nimi on peräisin ed-tekstieditorin komennosta g/re/p.[1] Ohjelman on kehittänyt Ken Thompson.[1] Ohjelma vaikutti myös sed-rivieditorin kehitykseen.[2]

Tietokoneslangissa greppaus tai greppaaminen tarkoittaa yleensä mitä tahansa merkkijonojen etsimistä.

Historia

Ohjelma on peräisin alkuperäisestä Unixista, jonka piti toimia PDP-11 -tietokoneella pienellä muistimäärällä. Ken Thompson teki ed-ohjelman tekstin muokkaamiseen primitiivisillä näyttölaitteilla ilman kursoria. ed salli säännöllisten lausekkeiden avulla, jossa 'g' tarkoitti hakua, 'p' tulostamista ja 're' lauseketta ja tämä esitettiin muodossa: g/re/p. Lee McMahon halusi ohjelman, jolla pystyi hakemaan tiedostosta merkkijonoja ja ongelmana oli, että tiedosto oli tuolloin liian suuri tietokoneen muistimäärälle jotta sitä olisi voitu avata editorissa. Tämän johdosta Thompson teki ohjelman grep.[1] Alfred V. Aho ja Margaret J. Corasick kehittivät Aho-Corasick -algoritmin merkkijonojen hakemiseen, joka toteutettiin fgrep-versioon ohjelmasta.[3][4][5]

Toteutuksia

grep-ohjelmasta on useita toteutuksia:[6]

  • ensimmäisen toteuttivat Ken Thompson ja Dennis Ritchie[6]
  • myöhemmin Lee E. McMahon toteutti uuden version ohjelmasta[6]
  • Alfred Aho toteutti egrep- ja fgrep-versiot ohjelmasta[6]
  • BSD-projektin versio, jonka alkuperäiset kehittäjät olivat James Howard ja Dag-Erling Coïdan Smørgrav[7][8]
  • GNU-projektin tekemä versio, jonka alkuperäinen kehittäjä on Mike Haertel[7]
  • Pienissä ja sulautetuissa järjestelmissä käytetyn BusyBoxin grep-toteutus perustuu C-kielen standardikirjaston toteutukseen säännöllisille lausekkeille. [9]

GNU grep käyttää Boyer-Moore -algoritmia, joka ensin hakee haettavan merkkijonon ensimmäisen merkin ja hakutaulun avulla päättelee miten pitkälle eteenpäin se voi hypätä jos merkki ei täsmää haettuun.[7][10]

Esimerkkejä

Komentoriviputkessa

Yleinen tapa on liittää ohjelman käyttö komentoriviputkeen:

 $ ps | grep bash

Tämä tapaus esittää ps ohjelman antamasta prosessilistauksesta rivit, joilla esiintyy sana bash.

Tyhjät rivit

Etsii tiedostosta #tiedosto kaikki tyhjät rivit ja tulostaa ne kaikki oletustulostusvirtaan:

 $ grep -e '^$' #tiedosto

Katso myös

Lähteet

  1. a b c d David Cassel: Brian Kernighan Remembers the Origins of ‘grep’ 22.7.2018. The Newstack. Viitattu 7.8.2018.
  2. CHAPTER 9 columbia.edu. Viitattu 6.9.2019. (englanniksi)
  3. Alfred V. Aho & Margaret J. Corasick: Efficient string matching: an aid to bibliographic search dl.acm.org. kesäkuu 1975. doi:10.1145/360825.360855 Viitattu 26.4.2023. (englanniksi)
  4. Bertrand Meyer: Incremental String Matching (PDF) se.inf.ethz.ch. 1985. Viitattu 26.4.2023. (englanniksi)
  5. fgrep ss64.com. Viitattu 26.4.2023. (englanniksi)
  6. a b c d M. Douglas McIlroy: A Research UNIX Reader: Annotated Excerpts from the Programmer’s Manual, 1971-1986 (PDF) cs.dartmouth.edu. Viitattu 6.9.2019. (englanniksi)
  7. a b c Mike Haertel: why GNU grep is fast lists.freebsd.org. 21.8.2010. Viitattu 26.4.2023. (englanniksi)
  8. index : src cgit.freebsd.org. Viitattu 26.4.2023. (englanniksi)
  9. Mini grep implementation for busybox using libc regex. git.busybox.net. Viitattu 16.5.2024.
  10. Robert S. Boyer & J. Strother Moore: A fast string searching algorithm dl.acm.org. lokakuu 1977. doi:10.1145/359842.359859 (englanniksi)

Kirjallisuutta

Aiheesta muualla