מילת עצירה

ענן מילים שמציג את המילים הנפוצות בטוויטר בעברית, מרביתן מילות עצירה.

בעיבוד שפה טבעית ובאחזור מידע (אנ'), מילות עצירהאנגלית: Stop words) הן מילים שמושמטות מהטקסט מכיוון שהן לא מוסיפות מידע למשפט.[1][2]

לא קיימת רשימה אוניברסלית מוסכמת של מילות עצירה המשמשת את כל כלי עיבוד השפה הטבעית, וכן לא קיימים כללים מוסכמים לזיהוי של מילים כאלו. ההגדרה של מילה כמילת עצירה יכולה להשתנות בהתאם לתחום שאליו שייך הטקסט ובהתאם למטרת העיבוד. גודל של רשימה כזו יכול לנוע בין מספר בודד של מילים, לבין כמה מאות מילים.[3]

היסטוריה

קונספט דומה שימש ביצירת קונקורדנציות של התנ"ך. הקונקורדנציה העברית "יאיר נתיב" של יצחק נתן בן קלונימוס (אנ') כללה רשימת של מילות יחס ושל צירופים שאינם מוסיפים מידע, הדומים למילות עצירה מודרניות. מכיוון שהמילים הללו נפוצות מאוד, הרשימה לא כללה מראי מקום.[4]

המונח מיוחס להנס פיטר לוהן, אחד מחלוצי אחזור המידע. לוהן הציג את הקונספט בהרצאתו על מיון אוטומטי של מילות מפתח משנת 1959, אך לא השתמש במונח "stop word",[5] המונח החל להופיע בספרות זמן קצר לאחר מכן.[6]

בשנת 1979 הציע ואן רייסברגן (אנ') את הרשימה הסטנדרטית הראשונה שלא התבססה רק על תדירות של הופעת מילים. הרשימה שהציע כללה 250 מילים באנגלית.[7] בשנות ה-80 המציא מרטין פורטר (אנ') את תוכנת ה-Stemming שהתבססה על הרשימה שהציע ואן רייסברגן. הרשימה הזו משמשת כברירת מחדל במגוון יישומי תוכנה.[8]

בשנת 1990 הציע כריסטופר פוקס רשימה של 421 מילים, המבוססת על מידע אמפירי ועל ניתוח שכיחות מילים בקורפוס בראון (אנ').[9]

דוגמאות

בעברית, מילות עצירה עשויות לכלול מילות קישור ומילות יחס כמו "את", "של", "לעומת", "גם", "אחרי", "כל" וכדומה. גם כינויי גוף כמו "אני" או "הוא" בדרך כלל נכללים ברשימה כזו.[10]

גם באנגלית ניתן לחלק את מילות העצירה לסוגים:[2][11]

  • מגדירים (Determiner), כמו the, a, an, another
  • מילות קישור כמו for, nor, but, or, yet, so, both, just
  • מילות יחס כמו in, under, towards, before

באחזור מידע

בטרמינולוגיה של קידום אתרים במנועי חיפוש, מילות העצירה הן מילים נפוצות שמנועי חיפוש רבים נוהגים להשמיט בתהליך עיבוד הנתונים במהלך סריקה או אינדוקס, על מנת לחסוך במקום ובזמן.

מנועי חיפוש מסוימים משמיטים את המילים הללו משאילתת החיפוש. במקרים כאלו יכולה להיווצר בעיה בחיפוש ביטויים שכוללים מילות עצירה כמו "To be or not to be", ובפרט בשמות של להקות כמו "The Who", "‏The The‏" או "Take That". מנועי חיפוש אחרים מסירים גם מילים שנפוצות בחיפושים, כמו "רוצה", כדי לשפר את הביצועים.[12]

השימוש במילות עצירה לקידום אתרים התפתח ביחד עם טכניקות מתחום למידת המכונה ועיבוד שפה טבעית, והולך ומשתפר עם השנים.[13]

בעברית

יצירת רשימה של מילות עצירה בעברית היא משימה פחות טריוויאלית מאשר בשפות אחרות, בגלל העושר המורפולוגי של השפה. פעמים רבות מצטרפות למילים מוספיות אשר משנות קלות את משמעות המילה. בניגוד לשפה האנגלית, שבה מילות עצירה הן ברוב המקרים מילים שלמות כמו The או And, בעברית יידוע מצטרף למילה המיודעת - בדרך כלל בצורה ה"א הידיעה, אך לעיתים באמצעות כינויי שייכות או באמצעות ניקוד מיודע של אותיות השימוש בכ"ל.[14] ו' החיבור גם היא מצטרפת כתחילית למילה.

ישנן מילים שבהיעדר ניקוד ניתן לקרוא במספר צורות. למשל, המילה "עם" - כאשר מדובר במילה "עִם", היא תהיה מושמטת כמילת עצירה, אך כאשר מדובר ב"עַם", היא לא תהיה מוגדרת כמילת עצירה במרבית הטקסטים.[15] כאשר היעדר הניקוד נוסף על העושר המורפולוגי, עשויים להיווצר מקרים בעלי דו-משמעות מבלבלת, שניתן לפתור רק באמצעות ניתוח מקדים של המשפט. מקרה לדוגמה הוא המילה "בצל", שיכולה להיות מנוקדת "בָּצָל" ולהתייחס לירק, או להיגזר מאות השימוש ב' בתוספת המילה "צל", וליצור את המילה המנוקדת "בְּצֵל". את האחרונה ניתן גם ליידע, ובכך ליצור משמעות נוספת - המילה "בַּצֵל", שנגזרת מהאות ב' בתוספת ה"א הידיעה שמתחברות כמוספיות למילה "צל". במקרה הזה, ניתוח מקדים של המשפט היה יכול לזהות את הצורך בהפרדת המילה ל-"ב + צל" למשל, ולהשמיט את התחילית ב' בתהליך השמטת מילות העצירה.

בשל העושר המורפולוגי, פעמים רבות השמטת מילות העצירה צריכה להיות מלווה בפעולה נוספת כמו Stemming (אנ'), למטיזציה (אנ'), זיהוי חלקי הדיבר במשפט או חלוקה מוקדמת למורפמות.[16]

הערות שוליים

  1. ^ Anand Rajaraman, Jeffrey David Ullman, Mining of Massive Datasets, 1, Cambridge University Press, 2011-10-27, ISBN 978-1-107-01535-7
  2. ^ 1 2 Kavita Ganesan, What are Stop Words?, Kavita Ganesan, PhD, ‏2014-10-19 (באנגלית אמריקאית)
  3. ^ Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009, עמ' 27
  4. ^ Bella Hass Weinberg, Predecessors of Scientific Indexing Structures in the Domain of Religion, 2004
  5. ^ H. P. Luhn, Key word-in-context index for technical literature (kwic index), American Documentation 11, 1960-10, עמ' 288–295 doi: 10.1002/asi.5090110403
  6. ^ Barbara J. Flood, Historical note: The Start of a Stop List at Biological Abstracts, Journal of the American Society for Information Science, 2000
  7. ^ Antoine Blanchard, Understanding and customizing stopword lists for enhanced patent mapping, World Patent Information 29, 2007-12, עמ' 308–316 doi: 10.1016/j.wpi.2007.02.002
  8. ^ Peter Willett, The Porter stemming algorithm: then and now, Program 40, 2006-07, עמ' 219–223 doi: 10.1108/00330330610681295
  9. ^ Christopher Fox, A stop list for general text, ACM SIGIR Forum 24, 1989-09, עמ' 19–21 doi: 10.1145/378881.378888
  10. ^ Hilla Merhav, Roei Shlezinger, Stop-Words-Hebrew, GitHub, ‏2022
  11. ^ All English Stopwords (700+), www.kaggle.com (באנגלית)
  12. ^ Jeff Atwood Co-Founder, Podcast #32, Stack Overflow Blog, ‏2008-12-04 (באנגלית אמריקאית)
  13. ^ Google: Stop Worrying About Stop Words Just Write Naturally, seroundtable.com
  14. ^ השפה העברית - אותיות השימוש בכ"ל, באתר www.safa-ivrit.org
  15. ^ כַּתְבָנִית, מילות עצירה – שימוש נכון בכתיבת תוכן, באתר כתבנית, ‏2015-11-29
  16. ^ Dror Kamir, Naama Soreq, Yoni Neeman, A comprehensive NLP system for Modern Standard Arabic and Modern Hebrew, Proceedings of the ACL-02 workshop on Computational approaches to semitic languages -, Association for Computational Linguistics, 2002, עמ' 1–9 doi: 10.3115/1118637.1118646


Read other articles:

بروشتون   الإحداثيات 44°49′51″N 74°30′52″W / 44.8308°N 74.5144°W / 44.8308; -74.5144  [1] تقسيم إداري  البلد الولايات المتحدة[2]  التقسيم الأعلى مقاطعة فرانكلن  خصائص جغرافية  المساحة 0.715859 كيلومتر مربع0.715857 كيلومتر مربع (1 أبريل 2010)  ارتفاع 128 متر  عدد السكا...

 

Gereja GPIB Paulus JakartaGereja Protestan di Indonesia bagian Barat Jemaat Paulus DKI JakartaGereja Paulus Jakarta6.2006° S, 106.8318° ELokasiJakarta, IndonesiaNegaraIndonesiaDenominasiCalvinisJumlah umat mingguan2300Situs web[1]SejarahNama sebelumnyaNassaukerk (1936-1942); Geredja Menteng (1942-1948)DidirikanSabtu, 6 Juni 1936PendiriProtestantsche Kerk in Nederlandsch-IndieArsitekturStatus fungsionalAktifPenetapan warisanA (1993)ArsitekF.J.L. GhijselsTipe arsitekturGerejaGayaArt DecoSpesi...

 

Perang Saudara AmerikaPertempuran GettysburgTanggal12 April 1861 – 9 April 1865 (tembakan terakhir pada Juni 1865)LokasiSitus pertempuran Amerika Serikat Selatan dan Utara termasuk Antietam dan GettysburgHasil Kemenangan Persatuan Integritas teritori Amerika Serikat dipertahankan Rekonstruksi Perbudakan dihapuskanPihak terlibat  Amerika Serikat (Persatuan)  Konfederasi Amerika (Konfederasi)Tokoh dan pemimpin Abraham Lincoln Winfield Scott George B. McClellan Henry Wager Halle...

Official residence of the King of Thailand since 1782 This article is about the palace complex located in Bangkok, Thailand. For other uses, see Grand Palace (disambiguation). The Grand PalaceพระบรมมหาราชวังSeen from across the Chao Phraya River in 2017Location within BangkokGeneral informationStatusThe King's private property[1][2]LocationPhra Nakhon, Bangkok, ThailandCoordinates13°45′00″N 100°29′31″E / 13.7501°N 100.49...

 

Hotel in Manhattan, New York Hyatt Grand Central New YorkHyatt Grand Central New York as seen from the southeast, at Lexington Avenue and 42nd StreetInteractive map highlighting the hotel's locationHotel chainHyatt HotelsGeneral informationLocationManhattan, New York, USAddress109 East 42nd StreetCoordinates40°45′08″N 73°58′35″W / 40.75222°N 73.97639°W / 40.75222; -73.97639OpeningJanuary 28, 1919RenovatedSeptember 25, 1980OwnerHyattManagementHyattHeight295&...

 

American baseball player This biography of a living person relies on a single source. You can help by adding reliable sources to this article. Contentious material about living people that is unsourced or poorly sourced must be removed immediately. (April 2017) (Learn how and when to remove this message) Baseball player Wayne GrossThird basemanBorn: (1952-01-14) January 14, 1952 (age 72)Riverside, California, U.S.Batted: LeftThrew: RightMLB debutAugust 21, 1976, for the Oa...

В Википедии есть статьи о других людях с фамилией Нивинский. Игнатий Игнатьевич Нивинский Дата рождения 30 декабря 1880 (11 января 1881)(1881-01-11) Место рождения Москва Дата смерти 27 октября 1933(1933-10-27) (52 года) Место смерти Москва Гражданство  Российская империя СССР Учёба Р�...

 

Земская почтаУезды Алатырский Александрийский Ананьевский Ардатовский Арзамасский Аткарский Ахтырский Балашовский Бахмутский Бежецкий Белебеевский Белозерский Бердянский Бобровский Богородский Богучарский Борисоглебский Боровичский Бронницкий Бугульминский Бу�...

 

Disputed reef in the Spratly Islands Subi ReefDisputed islandSentinel-2 Image (October 2022)Subi ReefOther namesZhubi Reef渚碧礁 Zhǔbì Jiāo (Chinese)Zamora Reef (Philippine English)Bahura ng Zamora (Filipino)đá Xu Bi (Vietnamese)GeographyLocationSouth China SeaCoordinates10°54′48″N 114°03′43″E / 10.9133°N 114.062°E / 10.9133; 114.062ArchipelagoSpratly IslandsArea3.95 km2 (1.53 sq mi)Administration ChinaProvinceHainanprefecture-le...

Oh My FriendPoster Film.SutradaraVenu SriramProduserDil RajuDitulis olehVenu Sriram K. S. RavindraSkenarioVenu SreeramCeritaVenu SreeramPemeranSiddharthShruti HaasanHansika MotwaniTanikella BharaniNavdeepAliPenata musikRahul RajSinematograferVijay C Chakravarthy[1]PenyuntingMarthand K. VenkateshPerusahaanproduksiSri Venkateswara CreationsDistributorGeetha ArtsTanggal rilis 11 November 2011 (2011-11-11) Durasi131 menitNegaraIndiaBahasaTelugu Oh My Friend adalah sebuah film m...

 

此条目序言章节没有充分总结全文内容要点。 (2019年3月21日)请考虑扩充序言,清晰概述条目所有重點。请在条目的讨论页讨论此问题。 哈萨克斯坦總統哈薩克總統旗現任Қасым-Жомарт Кемелұлы Тоқаев卡瑟姆若马尔特·托卡耶夫自2019年3月20日在任任期7年首任努尔苏丹·纳扎尔巴耶夫设立1990年4月24日(哈薩克蘇維埃社會主義共和國總統) 哈萨克斯坦 哈萨克斯坦政府...

 

RijsttafelAcara rijsttafel kecil di sebuah pesta di BelandaNama lainRice tableSajianHidangan utamaTempat asalHindia Belanda (Abad 19-awal abad 20 Indonesia)Dibuat olehMasyarakat kolonial IndonesiaSuhu penyajianPanas atau suhu kamarBahan utamaNasi dengan aneka hidangan sampingVariasiNasi campur, Nasi Rames (Indo)Sunting kotak info • L • BBantuan penggunaan templat ini  Media: Rijsttafel Foto bersama di kala menikmati rijsttafel Rijsttafel (dibaca rèisttafel secara harfi...

Lomo saltadoLomo saltado dengan kentang goreng sebagai pendamping.Nama lainLomito saltadoSajianHidangan utamaTempat asalPeruMasakan nasional terkaitPeruSuhu penyajianPanasBahan utamaPotongan tipis bistik daging sapi (sirloin), bawang, tomat, kentang goreng, kecap, nasi, cukaBahan yang umum digunakanCabai, cremaSunting kotak info • L • BBantuan penggunaan templat ini  Media: Lomo saltado Lomo saltado adalah hidangan tradisional populer khas dari negara Peru, se...

 

Bài viết này cần thêm chú thích nguồn gốc để kiểm chứng thông tin. Mời bạn giúp hoàn thiện bài viết này bằng cách bổ sung chú thích tới các nguồn đáng tin cậy. Các nội dung không có nguồn có thể bị nghi ngờ và xóa bỏ. Không nên nhầm lẫn với Li Hongzhang, quan nhà Thanh. Lý Hồng Trung李鸿忠Đồng chí Lý Hồng Trung tại Hội nghị Nhân Đại ngày 22 tháng 5 năm 2020Chức vụBí thư Thành ủy thà...

 

17th US national census Seventeenth censusof the United States ← 1940 April 1, 1950 1960 → U.S. Census Bureau seal1950 U.S. census logoGeneral informationCountryUnited StatesResultsTotal population158,804,396 ( 14.5%)Most populous ​stateNew York15,830,192Least populous ​stateNevada160,083 The 1950 United States census, conducted by the Census Bureau, determined the resident population of the United States to be 158,804,396, an increase of...

Period of social, political and economic change in Prussia (1800s–20s) Karl Freiherr vom und zum Stein Karl August von Hardenberg The Prussian Reform Movement was a series of constitutional, administrative, social, and economic reforms early in 19th-century Prussia. They are sometimes known as the Stein–Hardenberg Reforms, for Karl Freiherr vom Stein and Karl August von Hardenberg, their main initiators. German historians, such as Heinrich von Treitschke, saw the reforms as the first step...

 

حفل توزيع جوائز الأكاديمية الإفريقية للأفلام الخامس عشر الجائزة جوائز الأكاديمية الأفريقية للأفلام التاريخ 27 أكتوبر 2019 (2019-10-27) المكان لاغوس، نيجيريا البلد نيجيريا  المضيف كيمي لالا أكيندوجو، Lorenzo Menakaya، فانيبون[1] الجوائز Best Film رحمة الغابة الأكثر فوزا رحمة �...

 

Hindu temple of Vishnu in Uttarakhand, India Badrinath TempleThe temple with steps leading to the entranceReligionAffiliationHinduismDistrictChamoli districtDeityBadrinath (Vishnu) and Badridevi (Lakshmi)Governing bodyShri Badarinath Kedarnath Temple CommitteeLocationLocationBadrinathStateUttarakhandCountry IndiaLocation in UttarakhandGeographic coordinates30°44′41″N 79°29′28″E / 30.744695°N 79.491175°E / 30.744695; 79.491175Elevation3,100 m (10,1...

Entire structure of a human being Anatomy of the human body redirects here. For the textbook, see Gray's Anatomy. Female (left) and male (right) adult human bodies photographed in ventral (above) and dorsal (below) perspectives. Naturally-occurring pubic, body, and facial hair have been deliberately removed to show anatomy. The human body is the entire structure of a human being. It is composed of many different types of cells that together create tissues and subsequently organs and then orga...

 

Ini adalah nama Batak Toba, marganya adalah Sinaga. Pdt. Prof. Dr. Ir.Bob FosterM.M. Informasi pribadiLahirBob Foster Sinaga6 Januari 1958 (umur 66)Pematangsiantar, Sumatera Utara, IndonesiaAgamaKekristenanDenominasiProtestanAlmamaterInstitut Teknologi BandungDikenal sebagaiPendiri Ganesha Operation dan Universitas Informatika Dan Bisnis IndonesiaPekerjaanPendeta, akademikus, pengusahaGerejaGBI Rock Bandung Pdt. Prof. Dr. Ir. Bob Foster Sinaga, M.M. (lahir 6 Januari 1958) adalah seo...