Дерево решений

Дерево принятия решений (также называют деревом классификации или регрессионным деревом) — средство поддержки принятия решений, использующееся в машинном обучении, анализе данных и статистике. Структура дерева представляет собой «листья» и «ветки». На рёбрах («ветках») дерева решения записаны признаки, от которых зависит целевая функция, в «листьях» записаны значения целевой функции, а в остальных узлах — признаки, по которым различаются случаи. Чтобы классифицировать новый случай, надо спуститься по дереву до листа и выдать соответствующее значение.

Подобные деревья решений широко используются в интеллектуальном анализе данных. Цель состоит в том, чтобы создать модель, которая предсказывает значение целевой переменной на основе нескольких переменных на входе.

Каждый лист представляет собой значение целевой переменной, изменённой в ходе движения от корня по рёбрам дерева до листа. Каждый внутренний узел сопоставляется с одной из входных переменных.

Дерево может быть также «изучено» разделением исходных наборов переменных на подмножества, основанные на проверке значений признаков. Это действие повторяется на каждом из полученных подмножеств. Рекурсия завершается тогда, когда подмножество в узле имеет те же значения целевой переменной, таким образом, оно не добавляет ценности для предсказаний. Процесс, идущий «сверху вниз», индукция деревьев решений (TDIDT)[1], является примером поглощающего «жадного» алгоритма, и на сегодняшний день является наиболее распространённой стратегией деревьев решений для данных, но это не единственная возможная стратегия.

В интеллектуальном анализе данных деревья решений могут быть использованы в качестве математических и вычислительных методов, чтобы помочь описать, классифицировать и обобщить набор данных, которые могут быть записаны следующим образом:

Зависимая переменная Y является целевой переменной, которую необходимо проанализировать, классифицировать и обобщить. Вектор состоит из входных переменных , , и т. д., которые используются для выполнения этой задачи.

Основные определения

При анализе решений посредством «дерева решений» используют визуальный и аналитический инструмент поддержки принятия решений для расчёта ожидаемых значений (или ожидаемой пользы) конкурирующих альтернатив.

Дерево решений состоит из трёх типов узлов:

  • Узлы решения — обычно представлены квадратами
  • Вероятностные узлы — представляются в виде круга
  • Замыкающие узлы — представляются в виде треугольника

На рисунке, представленном выше, дерево решений следует читать слева направо. Дерево решений не может содержать в себе циклические элементы, то есть каждый новый лист впоследствии может лишь расщепляться, отсутствуют сходящиеся пути. Таким образом, при конструировании дерева вручную, мы можем столкнуться с проблемой его размерности, поэтому, как правило, дерево решений мы можем получить с помощью специализированного программного обеспечения. Обычно дерево решений представляют в виде схематического чертежа, благодаря которому его проще воспринимать и анализировать.

Типология деревьев

Деревья решений, используемые при добыче данных, бывают двух основных типов:

  • Дерево для классификации, когда предсказываемый результат является классом, к которому принадлежат данные;
  • Дерево для регрессии, когда предсказываемый результат можно рассматривать как вещественное число (например, цена на дом, или продолжительность пребывания пациента в больнице).

Упомянутые выше термины впервые были введены Брейманом и др.[2] Перечисленные типы имеют некоторые сходства (рекурсивный алгоритмы построения), а также некоторые различия, такие, как критерии выбора разбиения в каждом узле.[2]

Некоторые методы позволяют построить более одного дерева решений (ансамбли деревьев решений):

  1. Бэггинг над деревьями решений, наиболее ранний подход. Строит несколько деревьев решений, неоднократно интерполируя данные с заменой (бутстреп), и в качестве консенсусного ответа выдаёт результат голосования деревьев (их средний прогноз);[3]
  2. Классификатор «Случайный лес» основан на бэггинге, однако в дополнение к нему случайным образом выбирает подмножество признаков в каждом узле, с целью сделать деревья более независимыми;
  3. Бустинг над деревьями может быть использован для задач как регрессии, так и классификации.[4] Одна из реализаций бустинга над деревьями, алгоритм XGBoost, неоднократно использовался победителями соревнований по анализу данных.
  4. «Вращение леса» — деревья, в которых каждое дерево решений анализируют первым применением метода главных компонент (PCA) на случайные подмножества входных функций.[5]

Алгоритмы построения дерева

Есть различные способы выбирать очередной признак:

На практике, в результате работы этих алгоритмов часто получаются слишком подробные деревья, которые при их дальнейшем применении дают много ошибок. Это связано с явлением переобучения. Для сокращения деревьев используют отсечение ветвей[англ.] (англ. pruning).

Достоинства метода

В отличие от остальных методов добычи данных, метод дерева принятия решений имеет несколько достоинств:

  • Прост в понимании и интерпретации.
  • Не требует специальной подготовки данных, как например: нормализации данных, добавления фиктивных переменных, а также удаления пропущенных данных.
  • Способен работать как с категориальными, так и с интервальными переменными. (Прочие методы работают лишь с теми данными, где присутствует лишь один тип переменных. Например, метод отношений может быть применён только на номинальных переменных, а метод нейронных сетей только на переменных, измеренных по интервальной шкале.)
  • Использует модель «белого ящика», то есть если определённая ситуация наблюдается в модели, то её можно объяснить при помощи булевой логики. Примером «черного ящика» может быть искусственная нейронная сеть, так как полученные результаты сложно объяснить.
  • Позволяет оценить модель при помощи статистических тестов. Это даёт возможность оценить надёжность модели.
  • Метод хорошо работает даже в том случае, если были нарушены первоначальные предположения, включённые в модель.
  • Позволяет работать с большим объёмом информации без специальных подготовительных процедур. Данный метод не требует специального оборудования для работы с большими базами данных.

Недостатки метода

  • Проблема получения оптимального дерева решений является NP-полной задачей, с точки зрения некоторых аспектов оптимальности даже для простых задач[7][8]. Таким образом, практическое применение алгоритма деревьев решений основано на эвристических алгоритмах, таких как алгоритм «жадности», где единственно оптимальное решение выбирается локально в каждом узле. Такие алгоритмы не могут обеспечить оптимальность всего дерева в целом.
  • В процессе построения дерева решений могут создаваться слишком сложные конструкции, которые недостаточно полно представляют данные. Данную проблему называют переобучением[9]. Для того, чтобы её избежать, необходимо использовать метод «регулирования глубины дерева».
  • Существуют понятия, которые сложно понять из модели, так как модель описывает их сложным путём. Данное явление может быть вызвано проблемами XOR, чётности или мультиплексарности. В этом случае мы имеем дело с непомерно большими деревьями. Существует несколько подходов решения данной проблемы, например, попытка изменить репрезентацию концепта в модели (составление новых суждений)[10], или использование алгоритмов, которые более полно описывают и репрезентируют концепт (например, метод статистических отношений, индуктивная логика программирования).
  • Для данных, которые включают категориальные переменные с большим набором уровней (закрытий), больший информационный вес присваивается тем признакам, которые имеют большее количество уровней[11].

Регулирование глубины дерева

Регулирование глубины дерева — это техника, которая позволяет уменьшать размер дерева решений, удаляя участки дерева, которые имеют маленький вес.

Один из вопросов, который возникает в алгоритме дерева решений — это оптимальный размер конечного дерева. Так, небольшое дерево может не охватить ту или иную важную информацию о выборочном пространстве. Тем не менее, трудно сказать, когда алгоритм должен остановиться, потому что невозможно спрогнозировать, добавление какого узла позволит значительно уменьшить ошибку. Эта проблема известна как «эффект горизонта». Тем не менее, общая стратегия ограничения дерева сохраняется, то есть удаление узлов реализуется в случае, если они не дают дополнительной информации[12].

Регулирование глубины дерева должно уменьшить размер обучающей модели дерева без уменьшения точности её прогноза или с помощью перекрестной проверки. Есть много методов регулирования глубины дерева, которые отличаются измерением оптимизации производительности.

Методы регулирования

Сокращение дерева может осуществляться сверху вниз или снизу вверх. Сверху вниз — обрезка начинается с корня, снизу вверх — сокращается число листьев дерева. Один из простейших методов регулирования — уменьшение ошибки ограничения дерева. Начиная с листьев, каждый узел заменяется на самый популярный класс. Если изменение не влияет на точность предсказания, то оно сохраняется.

Пример задачи

Предположим, что нас интересует, выиграет ли наша любимая футбольная команда следующий матч. Мы знаем, что это зависит от ряда параметров; перечислять их все — задача безнадёжная, поэтому ограничимся основными:

  • выше ли находится соперник по турнирной таблице;
  • дома ли играется матч;
  • пропускает ли матч кто-либо из лидеров команды;
  • идёт ли дождь.

У нас есть некоторая статистика на этот счёт:

Соперник Играем Лидеры Дождь Победа
Выше Дома На месте Да Нет
Выше Дома На месте Нет Да
Выше Дома Пропускают Нет Нет
Ниже Дома Пропускают Нет Да
Ниже В гостях Пропускают Нет Нет
Ниже Дома Пропускают Да Да
Выше В гостях На месте Да Нет
Ниже В гостях На месте Нет Да

Хочется понять, выиграет ли наша команда в очередной игре.

См. также

Примечания

  1. Quinlan, J. R. Induction of Decision Trees (англ.) // Machine Learning. — Kluwer Academic Publishers, 1986. — No. 1. — P. 81—106. Архивировано 20 января 2022 года.
  2. 1 2 Breiman, Leo; Friedman, J. H., Olshen, R. A., & Stone, C. J. Classification and regression trees (англ.). — Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software, 1984. — ISBN 978-0-412-04841-8.
  3. Breiman, L. Bagging Predictors (англ.) // Machine Learning. — 1996. — No. 24. — P. 123—140.
  4. Friedman, J. H. Stochastic gradient boosting (англ.). — Stanford University, 1999.
  5. Hastie, T., Tibshirani, R., Friedman, J. H. The elements of statistical learning : Data mining, inference, and prediction (англ.). — New York: Springer Verlag, 2001.
  6. Kass, G. V. An exploratory technique for investigating large quantities of categorical data (англ.) // Journal of the Royal Statistical Society. Series C (Applied Statistics). — Vol. 29, no. 2. — P. 119—127. — doi:10.2307/2986296. Архивировано 2 апреля 2022 года.
  7. Hyafil, Laurent; Rivest, RL. Constructing Optimal Binary Decision Trees is NP-complete (англ.) // Information Processing Letters. — 1976. — Vol. 5, no. 1. — P. 15—17. — doi:10.1016/0020-0190(76)90095-8.
  8. Murthy S. Automatic construction of decision trees from data: A multidisciplinary survey (англ.) // Data Mining and Knowledge Discovery. — 1998. — No. 2. — P. 345—389. Архивировано 2 апреля 2022 года.
  9. Max Bramer. Principles of Data Mining (англ.). — Springer, 2007. — ISBN 978-1-84628-765-7.
  10. Inductive Logic Programming (англ.) / Horváth, Tamás; Yamamoto, Akihiro, eds.. — Springer, 2003. — ISBN 978-3-540-20144-1.
  11. Deng, H., Runger, G., Tuv, E. Bias of Importance Measures for Multi-valued Attributes and Solutions // Artificial Neural Networks and Machine Learning – ICANN 2011. ICANN 2011. Lecture Notes in Computer Science, vol 6792 (англ.) / Honkela, T., Duch, W., Girolami, M., Kaski, S. (eds). — Berlin, Heidelberg: Springer, 2011. — ISBN 978-3-642-21737-1.
  12. Fast, Bottom-Up Decision Tree Pruning Algorithm

Ссылки

Литература

Read other articles:

ZTE CorporationKantor pusat ZTE di Shenzhen, GuangdongSebelumnyaZhongxing Telecommunication Equipment CorporationJenisBadan usaha milik negara; PublikKode emitenSZSE: 000063SEHK: 763 Komponen Russell 2000ISINCNE000000TK5CNE1000004Y2IndustriPeralatan telekomunikasi Peralatan jaringanDidirikan1985; 39 tahun lalu (1985) (dengan nama Zhongxing Semiconductor Co., Ltd.)PendiriHou Weigui [zh] (Hanzi: 侯為貴; Pinyin: Hóu Wéiguì)Kantorpusat55 Hi-tech Road SouthShenzhen,...

 

Election for the governorship of the U.S. state of New Mexico 1928 New Mexico gubernatorial election ← 1926 November 6, 1928 1930 →   Nominee Richard C. Dillon Robert C. Dow Party Republican Democratic Popular vote 65,967 52,550 Percentage 55.6% 44.3% Governor before election Richard C. Dillon Republican Elected Governor Richard C. Dillon Republican Elections in New Mexico Federal elections Presidential elections 1912 1916 1920 1924 1928 1932 1936 1940 1944 194...

 

Talaga JayaKecamatanNegara IndonesiaProvinsiGorontaloKabupatenGorontaloPemerintahan • CamatSyaiful Hippy, S.E.Populasi • Total- jiwaKode Kemendagri75.01.22 Kode BPS7502083 Luas- km²Desa/kelurahan5 desa Kantor Camat Talaga Jaya Untuk tempat lain yang bernama sama, lihat Talaga Jaya. Talaga Jaya adalah sebuah kecamatan di Kabupaten Gorontalo, Gorontalo, Indonesia. Pranala luar (Indonesia) Keputusan Menteri Dalam Negeri Nomor 050-145 Tahun 2022 tentang Pemberian dan...

Hutan Compiègnebahasa Prancis: Forêt de CompiègneHutan CompiègnePetaGeografiLokasiCompiègne, Oise, PrancisKetinggian30 hingga 148 meter (98 hingga 486 ft)*Area14.414 hektare (35.620 ekar)AdministrasiStatusWilayah yang dilindungi di bawah Natura 2000 dan Site of Community ImportancePeristiwaGencatan senjata 11 November 1918 (Perang Dunia I) Gencatan senjata 22 Juni 1940 (Perang Dunia II)Lembaga pengelolaNational Forests Office (Prancis)EkologiSpesies pohon ...

 

الكونغرس القاري كان في البداية خاصًا بمندوبي عدد من المستعمرات البريطانية الأمريكية في ذروة الثورة الأمريكية، إذ عُقد بشكل جماعي في سبيل مصالح شعوب المستعمرات الثلاث عشرة التي شكلت في النهاية الولايات المتحدة الأمريكية. أصبح الكونغرس الهيكل الإداري المؤقت للولايات الم�...

 

Free Your MindAlbum studio karya Maliq & D'EssentialsDirilis15 April 2007 3 Mei 2008 (repackage)GenrePop, JazzLabelWarner Music IndonesiaKronologi Maliq & D'Essentials 1st Maliq & D'essentials Special Edition (2006)1st Maliq & D'essentials Special Edition2006 Free Your Mind (2007) Free Your Mind Repackaged (2008) Mata Hati Telinga (2009)Mata Hati Telinga2009 Cover versi Repackage Cover versi Repackage Free Your Mind merupakan album musik kedua karya Maliq & D'Essential...

Kepulauan FaroeJulukanLandsliðið (The National Team)AsosiasiFótbóltssamband FøroyaKonfederasiUEFA (Eropa)Pelatih Håkan EricsonKaptenHallur HanssonPenampilan terbanyakFróði Benjaminsen (95)Pencetak gol terbanyakRógvi Jacobsen (10)Stadion kandangTórsvøllurPeringkat FIFATerkini 133 2 (4 April 2024)[1]Tertinggi94 (Desember 1992)Terendah198 (September 2008)Peringkat EloTerkini164 Warna pertama Warna kedua Pertandingan internasional pertamaIslandia 1 - 0 Kepulauan Faroe(Akranes, ...

 

American air conditioning company Carrier Global CorporationCompany typePublicTraded asNYSE: CARRS&P 500 componentIndustry Home appliances PredecessorUnited TechnologiesFoundedJune 26, 1915; 108 years ago (1915-06-26) in Syracuse, New York, U.S.FounderWillis CarrierHeadquartersPalm Beach Gardens, Florida, U.S.Area servedWorldwideKey peopleDave Gitlin (CEO)Products Air Conditioning HVAC systems Refrigerators Heating Ventilating Building automation Security controls R...

 

Fur

Soft, thick, hairy coat of a mammal Furs and Pelt redirect here. For other uses, see Fur (disambiguation), Furs (disambiguation), and Pelt (disambiguation). Like many mammals, grizzly bears are covered in thick fur. Fur is a thick growth of hair that covers the skin of almost all mammals. It consists of a combination of oily guard hair on top and thick underfur beneath. The guard hair keeps moisture from reaching the skin; the underfur acts as an insulating blanket that keeps the animal warm....

Dimitar KovačevskiДимитар Ковачевски Perdana Menteri Makedonia Utara ke-10PetahanaMulai menjabat 17 Januari 2022PresidenStevo PendarovskiPendahuluZoran ZaevPenggantiPetahanaPresiden Uni Demokratik SosialPetahanaMulai menjabat 12 Desember 2021PendahuluZoran ZaevPenggantiPetahana Informasi pribadiLahir1974 (umur 49–50)Kumanovo, RFS Yugoslavia (sekarang Makedonia Utara)Partai politikSDSMProfesiEkonomSunting kotak info • L • B Dimitar Kovačevski...

 

Disused railway station in Aberbran, Powys AberbranAberbran station shortly before closure in 1962General informationLocationAberbran, PowysWalesPlatforms1Other informationStatusDisusedHistoryOriginal companyNeath and Brecon RailwayPre-groupingNeath and Brecon RailwayPost-groupingGreat Western RailwayKey dates14 Sept. 1868[1]Station opens15 October 1962Station closes Aberbran railway station served the village of Aberbran in the traditional county of Brecknockshire, Wales. History Ope...

 

American TV series or program Girl vs. MonsterPromotional posterGenre Comedy horror Science fiction Teen Screenplay by Annie DeYoung Ron McGee Story byAnnie DeYoungDirected byStuart GillardStarringOlivia HoltKerris DorseyBrendan MeyerLuke BenwardTracy DawsonTheme music composerRobert DuncanCountry of originUnited StatesOriginal languageEnglishProductionProducers Tracey Jeffrey Sheri Singer Production locationVancouver, British Columbia, CanadaCinematographyThomas BurstynEditorJames R. Symons...

Abia Abia merupakan sebuah negara bagian yang terletak paling selatan di Nigeria. Didirikan pada tahun 1991 setelah berpisah dengan Imo. Ibu kota negara bagian ini ialah Umuahia. Negara bagian ini memiliki luas wilayah 6.320 km². Dengan memiliki jumlah penduduk sebanyak 4.222.476 jiwa (2005). Administrasi Urban utama di negara bagian ini ditunjukkan sebagai berikut: Aba (merupakan pusat komersial utama di bagian barat daya Nigeria) Umuahia Arochukwu Abiriba Item Nbawsi Ohafia Omoba Isu...

 

此條目或其章節极大或完全地依赖于某个单一的来源。 (2014年1月10日)请协助補充多方面可靠来源以改善这篇条目。致使用者:请搜索一下条目的标题(来源搜索:香港體育舞蹈總會 — 网页、新闻、书籍、学术、图像),以检查网络上是否存在该主题的更多可靠来源(判定指引) 香港體育舞蹈總會 Hong Kong DanceSport Assiociation成立時間1996年類型體育組織總部 香港葵涌大�...

 

Chanoch NissanyNissany memakai sebuah topi Minardi.Kebangsaan Israel Hungaria(kewarganegaraan ganda)Lahir29 Juli 1963 (umur 60)Tel Aviv, IsraelTerkait denganRoy Nissany (anak)Ajang sebelumnyaInternational Formula 3000 (2004)World Series Lights (2003)FIA CEZHungarian championships (2002–11, 2013–14)Gelar juara2002–03, 2003–04, 2006–07, 2009FIA CEZHungarian championships Chanoch Nissany (bahasa Ibrani: חנוך ניסני‎, lahir 29 Juli 1963) merupakan seorang pengusah...

This article includes a list of general references, but it lacks sufficient corresponding inline citations. Please help to improve this article by introducing more precise citations. (January 2024) (Learn how and when to remove this message) UN Peace mission for El Salvador United Nations Observer Mission in El SalvadorONUSAL Medal BarAbbreviationONUSALFormationMay 20, 1991; 33 years ago (1991-05-20)DissolvedApril 28, 1995; 29 years ago (1995-04-28)Headquar...

 

Highway in Texas U.S. Highway 290US 290 highlighted in redRoute informationAuxiliary route of US 90Maintained by TxDOTLength261.187 mi[1] (420.340 km)Existed1927[1]–presentMajor junctionsWest end I-10 near SegoviaMajor intersections US 87 in Fredericksburg US 281 in Johnson City I-35 in Austin US 183 in Austin US 77 in Giddings East end I-610 in Houston LocationCountryUnited StatesStateTexasCountiesKimble, Gillespie, Bla...

 

Castello dell'Acqua komune di Italia Castello dell'Acqua (it) Tempat NegaraItaliaDaerah di ItaliaLombardiaProvinsi di ItaliaProvinsi Sondrio NegaraItalia PendudukTotal597  (2023 )GeografiLuas wilayah14,07 km² [convert: unit tak dikenal]Ketinggian664 m Berbatasan denganChiuro Ponte in Valtellina Teglio SejarahSanto pelindungMikhael Informasi tambahanKode pos23030 Zona waktuUTC+1 UTC+2 Kode telepon0342 ID ISTAT014014 Kode kadaster ItaliaC186 Lain-lainSitus webLaman resmi Castello...

  此条目页的主題是中华人民共和国前国务院总理。关于同名人物,請見「李鹏 (消歧义)」。 李鹏李远芃1996年的李鹏 第7任中华人民共和国全国人民代表大会常务委员会委员长任期第九届全国人民代表大会常务委员会任期1998年3月16日—2003年3月15日副职 列表 田纪云、谢非、姜春云、邹家华、帕巴拉·格列朗杰、王光英、程思远、布赫、铁木尔·达瓦买提、吴阶平、彭�...

 

セルネックス・テレコムCellnex Telecom, S.A. 種類 公開会社市場情報 BMAD: CLNX本社所在地 スペイン08040Avinguda Parc Logístic 12-20, バルセロナ設立 2015年4月1日 (9年前) (2015-04-01)業種 通信代表者 トビアス・マルティネス・ヒメノ(CEO)外部リンク コーポレートサイトテンプレートを表示 セルネックス・テレコム(西: Cellnex Telecom, S.A.)は、無線通信インフラおよび放送...