Двоичная классификация

Двоичная, бинарная или дихотомическая классификация — это задача классификации элементов заданного множества в две группы (предсказание, какой из групп принадлежит каждый элемент множества) на основе правила классификации[англ.]. Контекст, в котором требуется решение, имеет ли объект некоторое качественное свойство[англ.], некоторые специфичные характеристики или некоторую типичную двоичную классификацию, включает:

Двоичная классификация является дихотомизацией, применённой для практических нужд. Во многих практических задачах двоичной классификации две группы не симметричны — вместо общей точности важны относительные пропорции типов ошибок. Например, в лабораторных тестах ложно положительный результат (выявление болезни, которой на самом деле нет) считается различимым от ложно отрицательного (невыявление болезни, которой на самом деле пациент болеет).

Статистическая двоичная классификация

Статистическая классификация — это задача, изучаемая в машинном обучении. Это вид обучения с учителем, метода машинного обучения, когда категории предопределены и используются для выбора категории для нового вероятностного наблюдения. Если имеется всего две категории, задача известна как статистическая двоичная классификация.

Некоторые методы, обычно используемые для двоичной классификации:

Каждый классификатор ведёт себя наилучшим образом только в выбранной области, основываясь на числе наблюдений, размерности вектора признаков, шуме в данных и многих других факторах. Например, классификаторы на основе случайных лесов работают лучше, чем на основе метода опорных векторов для трёхмерных облаков точек[1][2].

Оценка двоичной классификация

Левая и правая половина содержат экземпляры, которые удовлетворяют или не удовлетворяют условию. Овал содержит экземпляры, которые классифицируются (предсказаны) как положительные (удовлетворяют условию). Зелёная и красная часть содержат экземпляры, которые правильно или ошибочно классифицированы.
Результаты:
TP=True Positive (правильно положительный);
TN=True Negative (правильно отрицательный);
FP=False Positive (ложно положительный, ошибка типа I);
FN=False Negative (ложно отрицательный, ошибка типа II);
TPR=True Positive Rate (доля правильно положительных);
FPR=False Positive Rate (доля ложно положительных);
PPV=Positive Predictive Value (прогностическая ценность положительного результата);
NPV=Negative Predictive Value (прогностическая ценность ложного результата).

Существует много метрик, которые можно использовать для измерения производительности классификатора или предсказателя. Различные поля имеют различные преимущества для конкретных метрик ввиду различных целей. Например, в медицине часто используются чувствительность и специфичность, в то время как при извлечении информации предпочитают точность и отзыв. Важным отличием в метриках заключается в том, является ли она независимой от распространённости (как часто каждая категория встречается в популяции) или зависимой и оба типа полезны, но они имеют очень отличающиеся свойствам.

Если дана классификация множества данных, существует четыре базовые комбинации действительной категории и назначенной категории:

  1. правильно назначенные положительные классификации TP
  2. правильно назначенные отрицательные классификации TN
  3. ложно назначенные положительные классификации FP
  4. ложно назначенные отрицательные классификации FN

Они могут быть расположены в таблице сопряжённости со столбцами, соответствующими действительным значениям — условно положительные (англ. condition positive, CP) или условно отрицательные (англ. condition negative, CN), и строками, соответствующими значениям классификации — результат теста положительный или отрицательный. Существует восемь базовых отношений, которые могут быть вычислены из таблицы, которые распадаются на четыре дополняющие друг друга пары (сумма каждой пары равна 1). Они получаются путём деления каждого из четырёх чисел на сумму по строке или по столбцу, что даёт восемь чисел, о которых можно говорить как о «строке долей верноположительных» или «столбце долей ложноотрицательных», хотя существуют общеупотребимые термины. Существует также две пары отношений столбцов и две пары отношений строк, и можно получить четыре из них путём выбора одного отношения из каждой пары, остальные четыре числа являются их дополнениями.

Столбец долей содержит отношение верноположительных (англ. True Positive Rate, TPR, называемое также чувствительностью или отзывом, дополнение — доля ложно отрицательных результатов[англ.], англ. False Negative Rate, FNR) и долю верноотрицательных результатов (англ. True Negative Rate, TNR, называемую также специфичностью, (англ. Specificity, SPC, дополнение — доля ложно положительных[англ.], англ. False Positive Rate, FPR). Они пропорциональны популяции с условием (соответственно, без условия) для которой тест верен (или тест ложен) и они не зависят от распространённости.

Строка долей является прогностической ценностью положительного результата[англ.] (англ. Positive Predictive Value, PPV, называемой также точностью, дополнение — доля ложных отклонений[англ.], англ. False Discovery Rate, FDR) и прогностической ценностью отрицательного результата[англ.] (англ. Negative Predictive Value, NPV, дополнение — доля ложных пропусков, англ. False Omission Rate, FOR). Они пропорциональны популяции с заданным верным результатом теста (или ложным результатом) и они зависят от распространённости.

В лабораторных тестах основные используемые отношения — столбец истинных долей — доля верноположительных и доля верноотрицательных результатов — где они известны как чувствительность и специфичность. При извлечении информации главными отношениями являются доля верноположительных (строка и столбец) — прогностическая ценность отрицательного результата и доля верноположительных — где они известны как точность и отзыв.

Можно взять отношения дополняющих пар отношений, что даёт четыре отношения правдоподобия[англ.] (два значения столбца долей, два значения строки долей). Это, в первую очередь, делается для отношений столбцов, что даёт отношения правдоподобия в лабораторных тестах[англ.]. Взяв отношение в одной из этих групп, получим конечное отношение шансов диагностического теста[англ.] (англ. Diagnostic Odds Ratio, DOR). Это значение можно определить и прямо, как . Это имеет полезную интерпретацию как отношение шансов и не зависит от распространённости.

Существует несколько других метрик, наиболее простая из которых точность или доля правильных (англ. Fraction Correct, FC), которая измеряет долю всех случаев, которые были правильно классифицированы. Дополнение до 1 этого значения — доля неправильных (англ. Fraction Incorrect, FiC). F-мера комбинирует точность и отзыв в одном числе посредством выбора веса, в самом простом случае равному весу как в сбалансированной F-мере (F1 мера). Некоторые метрики приходят из коэффициентов регрессии — маркированности и информативности[англ.] и их среднего геометрического, коэффициента корреляции Мэтьюса[англ.]. Другие метрики включают J статистику Юдена[англ.], коэффициент неопределённости[англ.], коэффициент Фи и каппу Коэна.

Преобразование непрерывных значений к бинарным

Тесты, результаты которых являются непрерывными значениями, как, например, большинство значений анализа крови[англ.], могут быть искусственно сделаны двоичными путём определения отсекающего значения[англ.]. Результат теста определяется как положительный или отрицательный в зависимости от итогов сравнения результирующего и отсекающего значений.

Однако такое преобразование приводит к потере информации, поскольку результат двоичной классификации не показывает, насколько выше или ниже значения отсечения. При преобразовании непрерывного значения, которое близко к отсекающему значению, получающаяся в результате положительная[англ.] или отрицательная прогностическая ценность[англ.] в общем случае выше, чем прогностическая ценность[англ.], полученная непосредственно из непрерывного значения. В таких случаях положительный или отрицательный результат теста даёт неприемлемо высокую определённость, в то время как само значение фактически находится в области неопределённости. Например, показатель концентрации хорионического гонадотропина (ХГЧ) в моче имеет непрерывное значение. Тест мочи на беременность с границей отсечения 50 мМЕ/мл при реальной концентрации ХГЧ в значении 52 мМЕ/мл может показывать «положительный результат». С другой стороны, результат теста, далёкий от границы отсечения, обычно имеет положительную или отрицательную прогностическую ценность, меньшую прогностической ценности, полученной от непрерывного значения. Например, значение ХГЧ 200000 мМЕ/мл сообщает об очень высокой степени беременности, но преобразование к двоичным результатам даёт «положительный» результат теста при значении всего лишь 52 мМЕ/мл.

См. также

Примечания

Литература

  • Richard Zhang, Avideh Zakhor. Automatic Identification of Window Regions on Indoor Point Clouds Using LiDAR and Cameras // VIP Lab Publications. — 2014.
  • Y. Lu, C. Rasmussen. Simplified markov random fields for efficient semantic labeling of 3D point clouds // IROS. — 2012.
  • Nello Cristianini, John Shawe-Taylor. An Introduction to Support Vector Machines and other kernel-based learning methods. — Cambridge University Press, 2000. — ISBN 0-521-78019-5.'
  • John Shawe-Taylor, Nello Cristianini. Kernel Methods for Pattern Analysis. — Cambridge University Press, 2004. — ISBN 0-521-81397-2.
  • Bernhard Scholkopf, A. J. Smola. Learning with Kernels. — Massachusetts: MIT Press, Cambridge, 2002. — ISBN 0-262-19475-9.

Read other articles:

BagitoLahirJakarta, IndonesiaTahun aktif1978 - sekarang Bagito adalah grup lawak dari Indonesia yang terdiri dari Miing (Tb. Dedi Gumelar), Didin (Tb. Didin Pinasti) dan Unang (Hadi Wibowo). Sebelumnya pernah bergabung juga Yanto Stuck On You. Berawal dari Radio Suara Kejayaan yang merupakan radio sumber pelawak. Acara pertama yang dilakoni Bagito adalah acara Konsultan Bingung tahun 1984. Pelawak lainnya yang juga besar dari radio ini adalah Patrio, Ulfa Dwiyanti, Komeng, dan Taufik Sa...

 

Part of a series onBritish law Acts of Parliament of the United Kingdom Year      1801 1802 1803 1804 1805 1806 1807 1808 1809 1810 1811 1812 1813 1814 1815 1816 1817 1818 1819 1820 1821 1822 1823 1824 1825 1826 1827 1828 1829 1830 1831 1832 1833 1834 1835 1836 1837 1838 1839 1840 1841 1842 1843 1844 1845 1846 1847 1848 1849 1850 1851 1852 1853 1854 1855 1856 1857 1858 1859 1860 1861 1862 1863 1864 1865 1866 1867 1868 1869 1870 1871 1872 1873 1874 1875 1876 1877 1878 ...

 

Vous lisez un « article de qualité » labellisé en 2015. Alpes dinariques Carte topographique des Alpes dinariques. Géographie Altitude 2 692 m, Maja e Jezercës Massif Ceinture alpine Longueur 645 km Largeur 200 km Superficie 175 000 km2 Administration Pays Slovénie Croatie Bosnie-Herzégovine Serbie Monténégro Kosovo Albanie Géologie Âge 50 à 100 millions d'années Roches Roches sédimentaires modifier  Les Alpes dinariques ou Dinaride...

Cimitero della Congregazione olandese alemannaL'ossario posto al centro del cimiteroTipocivile Confessione religiosaprotestante Stato attualein uso UbicazioneStato Italia CittàLivorno CostruzionePeriodo costruzioneXIX secolo IngegnereOlinto Paradossi Tombe famoseAgostino Kotzian, Enrico Mayer, Gherardo Stub, Giovanni Paolo Schulthesius Mappa di localizzazione Modifica dati su Wikidata · ManualeCoordinate: 43°33′45″N 10°19′28″E / 43.5625°N 10.324444°E43....

 

2000 compilation album by Tangerine DreamAntique DreamsCompilation album by Tangerine DreamReleasedJune 2000Recorded1971–1988GenreElectronic[1]Length69:50LabelTDI/EFATangerine Dream chronology Soundmill Navigator(2000) Antique Dreams(2000) The Seven Letters From Tibet(2000) Professional ratingsReview scoresSourceRatingAllMusic[1] Antique Dreams is the seventieth release and first compilation album by Tangerine Dream. Compiled and remixed in 2000 and recorded between ...

 

Cristiano III Maurizio di Sassonia-Merseburg (Merseburg, 7 novembre 1680 – Merseburg, 14 novembre 1694) fu duca di Sassonia-Merseburg nel 1694. Indice 1 Biografia 2 Ascendenza 3 Note 4 Voci correlate Biografia Era il primogenito del duca Cristiano II di Sassonia-Merseburg e di Erdmute Dorotea di Sassonia-Zeitz. Suo padre morì il 20 ottobre 1694 lasciandolo duca di Sassonia-Mersenburg all'età di tredici anni[1]. Venne nominato suo reggente Federico Augusto di Sassonia ma molto infl...

† Египтопитек Реконструкция внешнего вида египтопитека Научная классификация Домен:ЭукариотыЦарство:ЖивотныеПодцарство:ЭуметазоиБез ранга:Двусторонне-симметричныеБез ранга:ВторичноротыеТип:ХордовыеПодтип:ПозвоночныеИнфратип:ЧелюстноротыеНадкласс:Четвероно...

 

Still Breathing Chanson de Samanta Tīna auConcours Eurovision de la chanson 2020 Sortie 2019 Langue Anglais Genre ElectropopEDMDubstepTrap Auteur-compositeur Samanta TīnaAminata Savadogo Chansons représentant la Lettonie au Concours Eurovision de la chanson That Night(2019) The Moon is Rising(2021)modifier Still Breathing Single de Samanta Tīna Sortie 28 novembre 2019 Durée 3:06 Format Téléchargement numérique Auteur-compositeur Samanta TīnaAminata Savadogo Producteur Sama...

 

Komando Distrik Militer 1425/JenepontoLambang Kodim 1425/JenepontoNegara IndonesiaAliansi Korem 141/ToddopuliCabang TNI Angkatan DaratTipe unitKodim Tipe BPeranSatuan TeritorialBagian dari Kodam XIV/HasanuddinMakodimJl. Lanto Daeng Pasewang Lingkungan Pacceko, Kelurahan Balang, Kecamatan Binamu, Kabupaten Jeneponto, Sulawesi SelatanJulukanKodim TurateaPelindungTentara Nasional IndonesiaMotoMakassar: ᨔᨗᨑᨗ ᨊ ᨄᨌᨙSiri' Na PacceHarga diri dan empatiBaret H I J A U...

For the Latin jazz/pop standard, see Quizás, Quizás, Quizás. 2002 single by Enrique IglesiasQuizásSingle by Enrique Iglesiasfrom the album Quizás Released7 October 2002 (2002-10-07)RecordedFebruary – May 2002StudioNadir Studios (Madrid, Spain) South Point Studios (Miami Beach, Florida) Larrabee StudiosWestlake StudioWestlake Audio (Hollywood, California) Compass Point Studios (Nassau, Bahamas) The Hit Factory Critiera (Miami, Florida)GenreLatin popLength4:11LabelUnivers...

 

Corong BüchnerSebuah corong Büchner yang dihubungkan dengan labu yang terhubung dengan pompa vakumKegunaanPenyaringanPenemuErnst BüchnerAlat terkaitCorong HirschCorong tetesCorong pemisahlbs Corong Büchner adalah sebuah peralatan laboratorium yang digunakan dalam penyaringan vakum.[1] Ia biasanya terbuat dari porselen, tetapi kadang kala ada juga yang terbuat dari kaca dan plastik. Di bagian atasnya terdapat sebuah silinder dengan dasar yang berpori-pori. Corong Hirsch juga memili...

 

2004 single by Counting Crows Accidentally in LoveSingle by Counting Crowsfrom the album Shrek 2: Motion Picture Soundtrack B-side American Girls (live) If I Could Give All My Love (Richard Manuel Is Dead) (live) ReleasedMay 3, 2004GenrePop rock[1][2]Length3:08Label Geffen DreamWorks Songwriter(s) Adam Duritz Dan Vickrey David Bryson Matt Malley David Immerglück Producer(s)Brendan O'BrienCounting Crows singles chronology She Don't Want Nobody Near (2003) Accidentally in Love ...

Muscle of the forearm in humans Supinator musclePosterior view of the supinator. (Right arm.)DetailsOriginLateral epicondyle of humerus, supinator crest of ulna, radial collateral ligament, annular ligamentInsertionLateral proximal radial shaftArteryRadial recurrent arteryNerveDeep branch of the radial nerveActionsSupinates forearmAntagonistPronator teres, pronator quadratusIdentifiersLatinmusculus supinatorTA98A04.6.02.048TA22512FMA38512Anatomical terms of muscle[edit on Wikidata] In hum...

 

Sri Lankan Shaivism and Tamil language scholar, reformer, revivalist Arumuka Navalarஆறுமுக நாவலர்BornKandharpillai Arumukapillai18 December 1822 (1822-12-18)Nallur, Jaffna District, British CeylonDied5 December 1879(1879-12-05) (aged 56)Jaffna, British CeylonOther namesSrila Sri Arumuka NavalarSri Arumuka SwamigalEducationTamil PanditharOccupationHindu missionaryKnown forHindu reformerTitleNavalar Part of a series onHindu philosophy Orthodox Samkhya...

 

Private, college-preparatory school in Cincinnati, , Ohio, United StatesSaint UrsulaAddress1339 East McMillan StreetCincinnati, (Hamilton County), Ohio 45206-2164United StatesCoordinates39°7′29″N 84°28′54″W / 39.12472°N 84.48167°W / 39.12472; -84.48167InformationTypePrivate, College-PreparatoryReligious affiliation(s)Roman CatholicEstablished1910CEEB code361105[2]PresidentLelia Keefe Kramer '77[1]PrincipalKathy Restle[1]Teaching staf...

This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Zhinvali – news · newspapers · books · scholar · JSTOR (September 2013) (Learn how and when to remove this message) Townlet in Mtskheta-Mtianeti, GeorgiaZhinvali ჟინვალიTownletView on ZhinvaliZhinvaliLocation of Zhinvali in GeorgiaShow map of Geor...

 

Museum Sumatera UtaraMuseum Sumatera UtaraDidirikan19 April 1982LokasiJln. H.M. Jhoni No. 51, MedanWisatawan2003 - 73.032 2004 - 80.070 2005 - 81.031DirekturRachmat Hadi Saputra Harahap Museum Sumatera Utara atau yang lebih dikenal warga Sumut Museum Negeri Provinsi Sumatera Utara (disingkat Museum Negeri Provsu) ini terletak di Jln. H.M. Jhoni No. 51 Medan.[1] Merupakan Museum terbesar di Sumatera Utara yang berbagai peninggalan sejarah budaya bangsa, hasil seni dan kerajinan dari be...

 

1982 single by Yazoo Only YouSingle by Yazoofrom the album Upstairs at Eric's B-side Situation (UK) Winter Kills (US) Released15 March 1982RecordedJanuary 1982Genre Synth-pop new wave experimental pop[1] Length3:11LabelMuteSongwriter(s)Vince ClarkeProducer(s) Eric Radcliffe, Daniel Miller, Yazoo (1982) Eric Radcliffe, Yazoo (1999) Yazoo singles chronology Only You (1982) Don't Go (1982) Music videoOnly You (1999 Remix) on YouTube Only You is a song by English synth-pop duo Yazoo. It w...

Pour les articles homonymes, voir Neuville. Neuville-de-Poitou L'église et le château d'eau. Blason Logo Administration Pays France Région Nouvelle-Aquitaine Département Vienne Arrondissement Poitiers Intercommunalité Communauté de communes du Haut-Poitou(siège) Maire Mandat Séverine Saint-Pé 2020-2026 Code postal 86170 Code commune 86177 Démographie Gentilé Neuvillois Populationmunicipale 5 429 hab. (2021 ) Densité 318 hab./km2 Géographie Coordonnées 46° 4...

 

Part of a series onPhilosophy Philosophy portal Contents Outline Lists Glossary History Categories Philosophies By period Ancient Ancient Egyptian Ancient Greek Medieval Renaissance Modern Contemporary Analytic Continental By region African Egypt Ethiopia South Africa Eastern philosophy Chinese Indian Indonesia Japan Korea Vietnam Indigenous American Aztec philosophy Middle Eastern philosophy Iranian Western American British French German Italian Russian By religion Buddhist Confucian Ch...