Pré-processamento de dados

O pré-processamento é um passo importante no processo de mineração de texto. A frase "garbage in, garbage out" é particularmente aplicável a projetos de data mining e machine learning. Os métodos de coleta de dados geralmente são frouxamente controlados, resultando em valores de intervalo out-of-range (por exemplo, renda: −100), combinações de dados impossíveis (por exemplo, sexo: masculino, grávidas: sim), missing values, etc. A análise de dados que não foram cuidadosamente selecionados para tais problemas pode produzir resultados enganosos. Assim, a representação e a qualidade dos dados são antes de tudo uma análise.[1]

Muitas vezes, o pré-processamento de dados é a fase mais importante de um projeto de aprendizado de máquina, especialmente em biologia computacional.[2]

É nessa etapa que os documentos são transformados para a forma numérica. O conteúdo de cada documento é decomposto em termos e a frequência de cada um. Os termos menos significativos são descartados e os que estão presentes em um grande número de documentos da coleção são desvalorizados. O resultado do pré-processamento é a geração da Bag of Words, mas conhecida como BOW, que é uma representação numérica da coleção de documentos.

A BOW é uma matriz esparsa, onde cada linha representa um documento (Di) e cada coluna representa um termo (Tj). E o valor do campo DiTj é o valor da frequência do termo Tj no documento Di.

Para gerar uma BOW são necessárias quatro etapas: leitura e conversão, extração e limpeza dos termos, contagem de termos e cálculo de frequência.

  • Leitura: Nessa etapa é definida uma coleção de documentos e cada documento pertencente a essa coleção terá seu conteúdo carregado na memória e seguirá pelas etapas seguintes.
  • Extração e limpeza dos termos: Cada documento da coleção vai ter o seu conteúdo dividido em termos, ou seja, cada palavra significante presente no documento. É composto por 3 sub-etapas.
    • Tokenização: A tokenização é utilizada para decompor o documento em cada termo que o compõe. Os delimitadores utilizados para tokenização geralmente são: o espaço em branco entre os termos, quebras de linhas, tabulações, e alguns caracteres especiais.
    • Limpeza: Depois de fazer a tokenização cada termo obtido passa pela etapa de limpeza. Primeiro são removidos as stop words, depois é verificada a existência do sinônimo do mesmo no dicionário e por último é realizado o stemming do termo. Stop words é uma lista de termos não representativos para um documento, geralmente essa lista é composta por: preposições, artigos, advérbios, números, pronomes e pontuação.
    • Stemming: Stemming é o método para redução de um termo ao seu radical, removendo as desinências, afixos, e vogais temáticas. Com sua utilização, os termos derivados de um mesmo radical serão contabilizados como um único termo.
  • Contagem dos termos: Depois de extrair os termos representativos de cada documento, será calculado o número de ocorrências de cada termo num documento. Depois de concluída a contagem é criada uma lista com duas colunas: termo e quantidade de ocorrência.
  • Cálculo da Frequência: Após concluída a etapa de contagem de termos para cada documento da coleção, será calculada a frequência dos termos. A medida escolhida para calcular a frequência dos termos é a tf-idf. O tf-idf define a importância do termo dentro da coleção de documentos. O tf-idf atribui um peso ao termo para cada documento da BOW. O peso é o número de ocorrências do termo no documento (Di), modificada por uma escala de importância do termo (Tj), chamada de frequência inversa do documento.

Referências

  1. Pyle, D., 1999. Data Preparation for Data Mining. Morgan Kaufmann Publishers, Los Altos, California.
  2. Chicco D (dezembro de 2017). «Ten quick tips for machine learning in computational biology». BioData Mining. 10 (35): 1-17. PMC 5721660Acessível livremente. PMID 29234465. doi:10.1186/s13040-017-0155-3 

Read other articles:

Unfolding is a transformation technique of duplicating the functional blocks to increase the throughput of the DSP program in such a way that preserves its functional behavior at its outputs. Unfolding was first proposed by Keshab K. Parhi and David G. Messerschmitt in 1989.[1][2] Unfolding in general program is as known as Loop unrolling. Unfolding has applications in designing high-speed and low-power ASIC architectures. One application is to unfold the program to reveal hid...

 

Artikel ini membutuhkan rujukan tambahan agar kualitasnya dapat dipastikan. Mohon bantu kami mengembangkan artikel ini dengan cara menambahkan rujukan ke sumber tepercaya. Pernyataan tak bersumber bisa saja dipertentangkan dan dihapus.Cari sumber: Bahasa Serbo-Kroasia – berita · surat kabar · buku · cendekiawan · JSTOR (July 2007) PemberitahuanTemplat ini mendeteksi bahwa artikel bahasa ini masih belum dinilai kualitasnya oleh ProyekWiki Bahasa dan Pro...

 

v · mPrésidents de l'Assemblée nationale de la Ve République française 1958-1969 : Jacques Chaban-Delmas 1969-1973 : Achille Peretti 1973-1978 : Edgar Faure 1978-1981 : Jacques Chaban-Delmas 1981-1986 : Louis Mermaz 1986-1988 : Jacques Chaban-Delmas 1988-1992 : Laurent Fabius 1992-1993 : Henri Emmanuelli 1993-1997 : Philippe Séguin 1997-2000 : Laurent Fabius 2000-2002 : Raymond Forni 2002-2007 : Jean-Louis Debré 2007...

Cet article traite de l'équipe masculine. Pour l'équipe féminine, voir Équipe du Congo féminine de football. Ne doit pas être confondu avec Équipe de République démocratique du Congo de football. Équipe du Congo Généralités Confédération CAF Emblème Le lion Couleurs Vert, Jaune, Rouge Stade principal Stade olympique de Brazzaville Classement FIFA 106e (26 octobre 2023)[1] Personnalités Sélectionneur Isaac N'Gata Capitaine Thievy Bifouma Plus sélectionné Delvin Ndinga (56)...

 

Universitas Kristen IndonesiaLambang Universitas Kristen IndonesiaMotoMelayani, Bukan DilayaniMoto dalam bahasa InggrisTo serve, not to be servedJenisUniversitas swastaDidirikan15 Oktober 1953Afiliasi keagamaanProtestanRektorDr. Dhaniswara K. Harjono, S.H., M.H., MBA.AlamatJl. Mayjen Sutoyo No. 2, Cawang, Jakarta TimurJl. Diponegoro No. 84-86, Jakarta Timur, Indonesia QV2C+MR Cawang, Kota Jakarta Timur, Daerah Khusus Ibukota JakartaKampusUrban: Kampus Diponegoro, Kampus CawangWarnaBiru, ...

 

Disambiguazione – Se stai cercando il conflitto avvenuto nel 1961, vedi Invasione della baia dei Porci. Questa voce sugli argomenti geografia di Cuba e golfi è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Baia dei PorciBaia dei Porci vista da Cueva de Los PecesParte diGolfo di Cazones, Mar dei Caraibi Stato Cuba Coordinate22°13′N 81°10′W / 22.216667°N 81.166667°W22.216667; -81.166667Coordinate: 22°13′N 81°10′W...

この項目には、一部のコンピュータや閲覧ソフトで表示できない文字が含まれています(詳細)。 数字の大字(だいじ)は、漢数字の一種。通常用いる単純な字形の漢数字(小字)の代わりに同じ音の別の漢字を用いるものである。 概要 壱万円日本銀行券(「壱」が大字) 弐千円日本銀行券(「弐」が大字) 漢数字には「一」「二」「三」と続く小字と、「壱」「�...

 

此條目可参照英語維基百科相應條目来扩充。 (2021年5月6日)若您熟悉来源语言和主题,请协助参考外语维基百科扩充条目。请勿直接提交机械翻译,也不要翻译不可靠、低品质内容。依版权协议,译文需在编辑摘要注明来源,或于讨论页顶部标记{{Translated page}}标签。 约翰斯顿环礁Kalama Atoll 美國本土外小島嶼 Johnston Atoll 旗幟颂歌:《星條旗》The Star-Spangled Banner約翰斯頓環礁�...

 

  لمعانٍ أخرى، طالع هجوم القنيطرة (توضيح). هجوم القنيطرة (أكتوبر 2015) جزء من الحرب الأهلية السورية الوضع العسكري الحالي في محافظة القنيطرة. ساحة القتال ظاهرة في المربع الأسود.      سيطرة الجيش السوري      سيطرة المعارضة      سيطرة تنظي�...

هذه المقالة بحاجة لصندوق معلومات. فضلًا ساعد في تحسين هذه المقالة بإضافة صندوق معلومات مخصص إليها.Learn how and when to remove this message هذه المقالة تحتاج للمزيد من الوصلات للمقالات الأخرى للمساعدة في ترابط مقالات الموسوعة. فضلًا ساعد في تحسين هذه المقالة بإضافة وصلات إلى المقالات المتع...

 

35mm film stereo camera produced 1954-59 Kodak Stereo CameraFront view of a Kodak Stereo CameraOverviewMakerKodakTypeStereoLensLensFixed lensSensor/mediumSensor typeFilmSensor size35mmFocusingFocusManualFlashFlashBayonet The Kodak Stereo Camera was a 35mm film stereo camera produced between 1954 and 1959. Similar to the Stereo Realist, the camera employed two lenses to take twin shots of scenes, which could then be viewed in dedicated image viewers. The lenses supported adjustable apertures a...

 

Le statut juridictionnel du président de la République française est précisé dans la Constitution de la Ve République, aux articles 67 et 68, dont la rédaction actuelle date de 2007. Le président de la République jouit d'une irresponsabilité pour tous les actes qu'il a accomplis en cette qualité. Cette disposition est ancienne : elle est héritée de la monarchie (« le roi ne peut mal faire ») et a été affirmée dans la majorité des constitutions depuis cel...

Latin Catholic ecclesiastical jurisdiction in Italy This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Roman Catholic Diocese of Tivoli – news · newspapers · books · scholar · JSTOR (October 2016) (Learn how and when to remove this message) Diocese of TivoliDioecesis TiburtinaTivoli CathedralLocationCountryItal...

 

Facultad de Filosofía y Letras Emblema de la facultad. Sigla FFyL, FFLTipo PúblicaForma parte de Universidad Nacional Autónoma de MéxicoFundación 1910 (como Escuela Nacional de Altos Estudios)1924 (como Facultad de Filosofía y Letras)LocalizaciónDirección Circuito interior s/n, Colonia Universidad Nacional Autónoma de México, Coyoacán, CP. 04510Ciudad Universitaria, Ciudad de México, México MéxicoCoordenadas 19°20′02″N 99°11′13″O / 19.333998, -99.186851...

 

German telecommunications industrialist Wilhelm von Siemens (1855–1919) Georg Wilhelm von Siemens (30 July 1855, in Berlin – 14 October 1919, in Arosa, Switzerland) was a German telecommunications industrialist of the Siemens family. Known as Wilhelm von Siemens, he was the second son of Werner von Siemens by first wife Mathilde Drumann, and was a general partner of the family company Siemens. Then under the name Siemens & Halske (S & H), the company was incorporated in 1897, with...

2016 statement by the Catholic and Russian Orthodox leaders Patriarch Kirill (left) in 2009 and Pope Francis (right) in 2015 The Joint Declaration of Pope Francis and Patriarch Kirill, also known as the Havana Declaration, was issued following the first meeting in February 2016 between Pope Francis, who, as the Bishop of Rome, is the pontiff of the Catholic Church, and Patriarch Kirill of Moscow, Patriarch of Moscow and all Rus', Patriarch of the Russian Orthodox Church (ROC), the largest of ...

 

Campionato mondiale di Formula 1 2010Edizione n. 61 del Campionato mondiale di Formula 1 Dati generaliInizio14 marzo Termine14 novembre Prove19 Titoli in palioPiloti Sebastian Vettelsu Red Bull RB6 Costruttori Red Bull Altre edizioniPrecedente - Successiva Edizione in corso Il campionato mondiale di Formula 1 2010 organizzato dalla FIA è stato, nella storia della categoria, la 61ª stagione ad assegnare il Campionato Piloti e la 53ª ad assegnare il Campionato Costruttori.Sebastian ...

 

Award honouring the best films of 1974 28th British Academy Film AwardsDate26 February 1975Hosted byDavid NivenHighlightsBest FilmLacombe, LucienBest ActorJack NicholsonChinatown and The Last DetailBest ActressJoanne WoodwardSummer Wishes, Winter DreamsMost awardsChinatown, The Great Gatsby and Murder on the Orient Express (3)Most nominationsChinatown (11) ← 27th BAFTA Awards 29th → The 28th British Academy Film Awards, more commonly known as the BAFTAs, took place on 26...

This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Pietermaritzburg – news · newspapers · books · scholar · JSTOR (October 2022) (Learn how and when to remove this message) Capital city of KwaZulu-Natal, South Africa City in KwaZulu-Natal, South AfricaPietermaritzburg uMgungundlovu (Zulu)CityFrom top, left...

 

Italo-portoricaniitalo-puertorriquenosLuogo d'origine Italia Linguaingleseitalianospagnolo Religionecattolicesimoprotestantesimo Gruppi correlaticorsi italianiitaloamericani Distribuzione  Porto Rico340 Manuale Gli italo-portoricani (in lingua spagnola italo-puertorriquenos) sono gli abitanti di Porto Rico che discendono da italiani emigrativi fin dai tempi della colonia spagnola. Indice 1 Vicende storiche 2 I Corsi 3 Note 4 Bibliografia 5 Voci correlate Vicende storiche Sono m...