Augmentation de donnée

L'augmentation de donnée est un domaine de l'apprentissage automatique qui permet de diminuer les inconvénients lié au manque de données ou à la répartition inégale de classes dans le cas de l'apprentissage supervisé[1], à savoir une mauvaise performance du modèle ou bien un surapprentissage ou l’introduction de biais[2].

Principe

Le but de l'augmentation de donnée est d'augmenter de manière automatique la taille du jeu de donnée en utilisant différentes méthodes qui permettent de créer de nouvelles instance à partir des données originiales[2].

Méthodes

Dans le domaine de la vision par ordinateur

En vision par ordinateur, afin de créer de nouvelles données, il suffit de transformer une des images faisant partie de notre jeu de donnée en utilisant des méthodes du domaine du traitement de l'image.

Transformation géométrique

En utilisant les méthodes de traitement de l'image, il est possible de modifier l'image en faisant par exemple un zoom, une rotation ou bien une inversion de l'image[3],[4],[5].

Transformation par précision

Dans cette méthode, on créer une nouvelle image à partir de l'ancienne en augmentant ou bien en diminuant la résolution de l'image originale[6],[4].

Transformation par effacement

Cette méthode consiste à créer une nouvelle image en enlevant directement certains pixels[7],[5].

Substitution des pixels

Cette méthode utilise une base de connaissance afin de modifier les pixels d'une image tout en conservant le sens principal de l'image[8],[5].

Génération d'image

Avec l'arrivée de l'intelligence artificielle générative en image avec par exemple DALL-E ou bien midjourney, une nouvelle méthode consiste à utiliser cette intelligence artificielle générer de nouvelles images à partir d'un script pour obtenir plus de données[9].

En traitement automatique des langues, afin de créer de nouvelles données, il existe de nombreuses méthodes permettant d'augmenter le jeu de données.

Supression aléatoire

La suppression aléatoire consiste à enlever de manière aléatoire des lettres dans un mot ou bien des mots dans une phrase afin de créer un nouveau texte[7],[1].

Donnée initiale Le jeune chien sort dans le parc
Donnée augmentée Le june chien dans le prc

Insertion aléatoire

L'insertion aléatoire consiste à ajouter de manière aléatoire des lettres dans un mot ou bien des mots dans une phrase afin de créer un nouveau texte[7],[1].

Donnée initiale Le jeune chien sort dans le parc
Donnée augmentée Le jeuyne chiegn sort maison dans fromage le parc

Remplacement aléatoire

Le remplacement aléatoire consiste à remplacer de manière aléatoire des lettres dans un mot ou bien des mots dans une phrase afin de créer un nouveau texte[7],[1].

Donnée initiale Le jeune chien sort dans le parc
Donnée augmentée La jyune chfen sort dans le porc

Le remplacement par synonyme

Cette méthode fonctionne de la même manière que le remplacement aléatoire. Cependant, dans ce cas, au lieu de remplacer les mots par des mots aléatoire, on utilise un modèle de langage afin de savoir quel mot est, dans le contexte de la phrase, le synonyme du mot à remplacer afin de pouvoir générer un nouveau texte qui garde le même sens que le texte initial[1],[7].

Donnée initiale Le jeune chien sort dans le parc
Donnée augmentée Le jeune chat sort dans le jardin

L'insertion par synonyme

Cette méthode fonctionne de la même manière que l'insertion aléatoire. Cependant, dans ce cas, au lieu d'insérer des mots de manière aléatoire, on utilise un modèle de langage afin de savoir quel mot est, dans le contexte de la phrase, le mot le plus logique à insérer[10].

Donnée initiale Le jeune chien sort dans le parc
Donnée augmentée Le jeune chien brun sort dans le joli parc

L'échange

Cette méthode consiste à échanger la position de différents mots dans la phrase afin de créer un nouveau texte.

Donnée initiale Le jeune chien sort dans le parc
Donnée augmentée Le jeune parc sort dans le chien

La traduction inversée

Dans cette méthode, pour générer un nouveau texte, on traduit le texte orignial dans une autre langue comme par exemple, le chinois puis on traduit à le texte obtenu dans la langue originale[11],[7].

Donnée initiale Le jeune chien sort dans le parc
Donnée intermédiaire 小狗在公园里出去
Donnée augmentée Chiot dans le parc

La génération de données

Avec l'arrivée de l'intelligence artificielle générative en image avec par exemple ChatGPT, une nouvelle méthode consiste à utiliser cette intelligence artificielle générer de nouvelles images à partir d'un script pour obtenir plus de données[12].

Dans le domaine des séries temporelles

Dans le domaine des séries temporelles les méthodes existantes sont plus mathématique. Par exemple il est possible de créer de nouvelles séries temporelles par interpolation[13].

Limites

Bien que l'augmentation de donnée soit une méthode pratique pour résoudre les problèmes des petit jeux de données, certaines limites ont été recensées. En traitement de l'image, en dehors de la génération d'image, les autres méthode ne rajouentant pas de nouvelles informations et peuvent si elle sont mal utilisés, créer un biais algorithmique[5].

En traitement automatique des langues, il existe aussi ce problème du manque de nouvelles informations. De plus, l'ajout de nouveau mot peut amener à un changement sémantique de la phrase qui peut perdre le sens compréhensible par un humain mais également parasiter le jeu de donnée[14].

Notes et références

  1. a b c d et e (en) Jason Wei et Kai Zou, « EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks », Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), Association for Computational Linguistics,‎ , p. 6381–6387 (DOI 10.18653/v1/D19-1670, lire en ligne, consulté le )
  2. a et b Alex Krizhevsky et Ilya Sutskever, « ImageNet classification with deep convolutional neural networks », Communications of the ACM, vol. 60, no 6,‎ , p. 84–90 (ISSN 0001-0782, DOI 10.1145/3065386, lire en ligne, consulté le )
  3. Wei Zhang et Yungang Cao, « A new data augmentation method of remote sensing dataset based on Class Activation Map », Journal of Physics: Conference Series, vol. 1961, no 1,‎ , p. 012023 (ISSN 1742-6588 et 1742-6596, DOI 10.1088/1742-6596/1961/1/012023, lire en ligne, consulté le )
  4. a et b (en) st Lt. Pushkar Aggarwal, « Data augmentation in dermatology image recognition using machine learning », Skin Research and Technology, vol. 25, no 6,‎ , p. 815–820 (DOI 10.1111/srt.12726, lire en ligne, consulté le )
  5. a b c et d (en) Xuejie Hao, Lu Liu, Rongjin Yang et Lizeyan Yin, « A Review of Data Augmentation Methods of Remote Sensing Image Target Recognition », Remote Sensing, vol. 15, no 3,‎ , p. 827 (ISSN 2072-4292, DOI 10.3390/rs15030827, lire en ligne, consulté le )
  6. « Convolutional Neural Network With Data Augmentation for SAR Target Recognition | IEEE Journals & Magazine | IEEE Xplore », sur ieeexplore.ieee.org (DOI 10.1109/lgrs.2015.2513754, consulté le )
  7. a b c d e et f Bohan Li, Yutai Hou et Wanxiang Che, « Data augmentation approaches in natural language processing: A survey », AI Open, vol. 3,‎ , p. 71–90 (ISSN 2666-6510, DOI 10.1016/j.aiopen.2022.03.001, lire en ligne, consulté le )
  8. « Fully Automated Traffic Sign Substitution in Real-World Images for Large-Scale Data Augmentation | IEEE Conference Publication | IEEE Xplore », sur ieeexplore.ieee.org (DOI 10.1109/iv47402.2020.9304547, consulté le )
  9. (en) Carlos Medel-Vera, Pelayo Vidal-Estévez et Thomas Mädler, « A convolutional neural network approach to classifying urban spaces using generative tools for data augmentation », International Journal of Architectural Computing,‎ (ISSN 1478-0771 et 2048-3988, DOI 10.1177/14780771231225697, lire en ligne, consulté le )
  10. Lucas Francisco Amaral Orosco Pellicer, Taynan Maier Ferreira et Anna Helena Reali Costa, « Data augmentation techniques in natural language processing », Applied Soft Computing, vol. 132,‎ , p. 109803 (ISSN 1568-4946, DOI 10.1016/j.asoc.2022.109803, lire en ligne, consulté le )
  11. (en) Yanbin Zhao, Lu Chen, Zhi Chen et Kai Yu, « Semi-Supervised Text Simplification with Back-Translation and Asymmetric Denoising Autoencoders », Proceedings of the AAAI Conference on Artificial Intelligence, vol. 34, no 05,‎ , p. 9668–9675 (ISSN 2374-3468, DOI 10.1609/aaai.v34i05.6515, lire en ligne, consulté le )
  12. Nicolás Benjamín Ocampo, Elena Cabrio et Serena Villata, « Playing the Part of the Sharp Bully: Generating Adversarial Examples for Implicit Hate Speech Detection », Findings of the Association for Computational Linguistics: ACL 2023, Association for Computational Linguistics,‎ , p. 2758–2772 (DOI 10.18653/v1/2023.findings-acl.173, lire en ligne, consulté le )
  13. Cheolhwan Oh, Seungmin Han et Jongpil Jeong, « Time-Series Data Augmentation based on Interpolation », Procedia Computer Science, the 17th International Conference on Mobile Systems and Pervasive Computing (MobiSPC),The 15th International Conference on Future Networks and Communications (FNC),The 10th International Conference on Sustainable Energy Information Technology, vol. 175,‎ , p. 64–71 (ISSN 1877-0509, DOI 10.1016/j.procs.2020.07.012, lire en ligne, consulté le )
  14. (en) Steven Feng, Varun Gangal, Jason Wei et Sarath Chandar, « A Survey of Data Augmentation Approaches for NLP », Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021, Association for Computational Linguistics,‎ , p. 968–988 (DOI 10.18653/v1/2021.findings-acl.84, lire en ligne, consulté le )

Read other articles:

Dewan Perwakilan Rakyat DaerahProvinsi BaliPeriode 2019-2024JenisJenisUnikameral Jangka waktu5 tahunSejarahSesi baru dimulai2 September 2019PimpinanKetuaI Nyoman Adi Wiryatama (PDI-P) sejak 1 Oktober 2019 Wakil Ketua II Nyoman Sugawa Korry (Golkar) sejak 1 Oktober 2019 Wakil Ketua III Nyoman Suyasa (Gerindra) sejak 1 Oktober 2019 Wakil Ketua IIITjokorda Gde Asmara Putra Sukawati (Demokrat) sejak 1 Oktober 2019 KomposisiAnggota55Partai & kursiPemerintah (55)   Ger...

 

 

Romanian football manager (1939–2016) Ted Dumitru Personal informationFull name Dumitru TeodorescuDate of birth (1939-09-02)2 September 1939Place of birth Bucharest, Kingdom of RomaniaDate of death 26 May 2016(2016-05-26) (aged 76)Place of death Johannesburg, Gauteng, South AfricaManagerial careerYears Team1966 Universitatea Craiova1967–1968 Romania U-231969–1970 Altay Izmir1970–1971 Beşiktaş1971 Mersin İdmanyurdu1971–1973 Texas Longhorns1974–1975 Rochester Lancers1976–1...

 

 

بورديت الإحداثيات 42°24′57″N 76°50′57″W / 42.4158°N 76.8492°W / 42.4158; -76.8492   [1] تقسيم إداري  البلد الولايات المتحدة[2]  التقسيم الأعلى مقاطعة شويلر  خصائص جغرافية  المساحة 2.49248 كيلومتر مربع2.492481 كيلومتر مربع (1 أبريل 2010)  ارتفاع 298 متر  عدد السكان  عد...

Election 1972 United States Senate election in Minnesota ← 1966 November 7, 1972 1978 →   Nominee Walter Mondale Phil Hansen Party Democratic (DFL) Republican Popular vote 981,320 742,121 Percentage 56.67% 42.86% County resultsMondale:      50–60%      60–70%      70–80% Hansen:      40–50%      50–60%     &#...

 

 

American professional soccer player Perry Kitchen Perry Kitchen playing for D.C. United in March 2015Personal informationFull name Perry Allen KitchenDate of birth (1992-02-29) February 29, 1992 (age 32)Place of birth Indianapolis, Indiana, U.S.Height 6 ft 0 in (1.83 m)Position(s) Defensive midfielderYouth career Chicago Magic SCCollege careerYears Team Apps (Gls)2010 Akron Zips 25 (6)Senior career*Years Team Apps (Gls)2010 Chicago Fire Premier 1 (0)2011–2015 D.C. United...

 

 

هذه المقالة بحاجة لمراجعة خبير مختص في مجالها. يرجى من المختصين في مجالها مراجعتها وتطويرها. (ديسمبر 2013) Core histone H2A/H2B/H3/H4 بنك بيانات البروتينات rendering of Complex between nucleosome core particle (h3,h4,h2a,h2b) and 146 bp long DNA fragment based on 1aoi. معرف رمز Histone قاعدة بيانات عوائل البروتينات PF00125 قاعدة بيانات عوائل ا�...

Electoral district of New South Wales (1856–1859) Bathurst (County)New South Wales—Legislative AssemblyLocation in modern New South WalesStateNew South WalesCreated1856Abolished1859NamesakeBathurst CountyCoordinates33°30′S 149°30′E / 33.500°S 149.500°E / -33.500; 149.500 Bathurst county in the 1840s Bathurst (County) was an electoral district of the Legislative Assembly in the Australian state of New South Wales, named after Bathurst County and including th...

 

 

Peta situasi PMK di Indonesia per 31 Desember 2022.   Provinsi dengan kasus aktif   Provinsi dengan nol kasus aktif (tidak ada laporan selama minimum 14 hari)   Provinsi tanpa laporan kasus Penyakit mulut dan kuku (PMK) pada hewan telah beberapa kali menyebar dan mewabah di Indonesia. Periode pertama persebaran penyakit ini terjadi pada tahun 1887 hingga 1983. Indonesia mendeklarasikan diri bebas dari PMK sejak 1986 yang kemudian diakui secara internasional pada ...

 

 

Bahasa MamanwaDituturkan diFilipinaWilayahProvinsi Agusan del Norte dan Surigao del Norte, MindanaoPenutur(5.200 jiwa per 1990)[1] Rumpun bahasaAustronesia Melayu-PolinesiaFilipinaFilipina Tengah RayaFilipina TengahMansakanMamanwa Sistem penulisanLatinKode bahasaISO 639-3mmnGlottologmama1275[2] Status pemertahanan C10Kategori 10Kategori ini menunjukkan bahwa bahasa telah punah (Extinct)C9Kategori 9Kategori ini menunjukkan bahwa bahasa sudah ditinggalkan dan hanya segelint...

Policy on permits required to enter Armenia Politics of Armenia CIS Member State, CoE Member State Constitution Constitutional court President: Hrayr Tovmasyan Human rights Head of state President Vahagn Khachaturyan Executive Prime Minister Nikol Pashinyan Deputy Prime Minister Tigran Avinyan Mher Grigoryan Current government Legislature National Assembly President: Alen Simonyan Members Judiciary Law Administrative divisions Provinces (marz) Municipalities (hamaynk) Elections Political par...

 

 

Kurdish Sunni Muslim theologian (1877–1960) Nursi redirects here. For Estonian village, see Nursi, Estonia. Said-i NursiÜstad • BediüzzamanSaid NursiPersonalBorn1877[1]Nurs,[2][3] Bitlis Vilayet, Ottoman EmpireDied23 March 1960 (aged 82–83)[7]Urfa, TurkeyReligionIslamParentsSofi Mirza (father)Nuriye Hanım (mother)Era19th–20th century[4]RegionKurdistan[5]DenominationSunniJurisprudenceShafi'iCreedAsh'ari[6]...

 

 

Television show filmed in Vancouver Human TargetGenre Action Drama Spy fiction Based onChristopher Chanceby Len WeinCarmine InfantinoDeveloped byJonathan E. SteinbergStarring Mark Valley Chi McBride Jackie Earle Haley Indira Varma Janet Montgomery Theme music composer Bear McCreary (season 1) Tim Jones (season 2) Opening themeTheme from Human TargetComposers Bear McCreary (season 1) Tim Jones (season 2) Country of originUnited StatesOriginal languageEnglishNo. of seasons2No. of episodes25Prod...

Cet article est une ébauche concernant une localité allemande. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants. Spaichingen Armoiries Drapeau Administration Pays Allemagne Land Bade-Wurtemberg District(Regierungsbezirk) Fribourg-en-Brisgau Arrondissement(Landkreis) Tuttlingen Bourgmestre(Bürgermeister) Hans Georg Schuhmacher Code postal 78549 Indicatif téléphonique +49-07424 Immatriculation TUT Démographie ...

 

 

This template does not require a rating on Wikipedia's content assessment scale.It is of interest to the following WikiProjects:Iran Iran portalThis template is within the scope of WikiProject Iran, an attempt to build a comprehensive and detailed guide to articles related to Iran on Wikipedia. If you would like to participate, please join the project where you can contribute to the discussions and help with our open tasks.IranWikipedia:WikiProject IranTemplate:WikiProject IranIran articles E...

 

 

This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: List of Swiss inventions and discoveries – news · newspapers · books · scholar · JSTOR (April 2013) (Learn how and when to remove this message) The following list is composed of items, techniques and processes that were invented by or discovered by people from...

History of Michigan By year Pre-statehood U.S. Civil War Since 1900 Topics: Cities - Politics Michigan portalvte Union states in the American Civil War California Connecticut Delaware Illinois Indiana Iowa Kansas Maine Maryland Massachusetts Michigan Minnesota Nevada New Hampshire New Jersey New York Ohio Oregon Pennsylvania Rhode Island Vermont West Virginia Wisconsin Dual governments Kentucky Missouri Virginia West Virginia Territories and D.C. Arizona Colorado Dakota District of Colum...

 

 

Indigenous language spoken in parts of Mexico PurépechaTarascanPʼurhépechaPronunciation[pʰuˈɽepet͡ʃa]Native toMexicoRegionMichoacánEthnicityPurépechaNative speakers142,469 (2020 census)[1]Language familyLanguage isolateLanguage codesISO 639-3Either:tsz – Easternpua – WesternGlottologtara1323ELPPurepechaDistribution of Purépecha in Mexico, green indicates historical language homeland and red is modern-day speakers.This article contains IPA p...

 

 

Anti-corruption street protests 2017–2018 Russian protests Rallies all across Russia, March–June 2017Clockwise from top left Protests in Chelyabinsk – The tsar-duck is a reference to duck's house in Dmitry Medvedev's dacha Protests in Yekaterinburg People waving national flags in Nizhny Novgorod Protests in Saint Petersburg on Russia Day Sneakers, also the symbol of Anti-corruption protests, represents the sneakers of Prime-minister Medvedev, which he ordered on the Internet through fak...

.cr

.cr البلد كوستاريكا  الموقع الموقع الرسمي  تعديل مصدري - تعديل   cr. هو نطاق إنترنت من صِنف مستوى النطاقات العُليا في ترميز الدول والمناطق، للمواقع التي تنتمي لكوستاريكا.[1][2] مراجع ^ النطاق الأعلى في ترميز الدولة (بالإنجليزية). ORSN [الإنجليزية]. Archived from the original on 201...

 

 

← 2021 •  • 2025 → Elecciones primarias de 2023Candidatos para las elecciones presidenciales y legislativas Fecha Domingo 13 de agosto de 2023 Tipo Primaria Duración de campaña 24 de junio a11 de agosto de 2023 Demografía electoral Población 46 044 703 Hab. registrados 35 405 013 Votantes 24 935 583 Participación    70.43 %  6 % Votos válidos 23 269 296 (93,32%) Votos en blanco ...