< back

Binární rozhodovací strom – informační zisk


A) Zadání

  1. Zkonstruujte binární rozhodovací strom tak, aby modeloval funkční závislost y=f(x) danou tabulkou pod textem:

    • Vstupní atributy jsou {x1, x2, x3, x4}.

    • Výstupní klasifikační atribut tvoří funkce y(x), jejíž hodnoty do tabulky doplňte rozkladem vašeho student ID v binární soustavě, přičemž vzhledem k počtu řádků tabulky použijte pouze 16 posledních bitů (v horním řádku tabulky je MSB, v dolním pak LSB).

    • Maximální hloubka stromu Dmax = 3.


  1. Konstrukci stromu proveďte na základě informačního zisku, tj. výpočtem podmíněných entropií. Technicky využijte libovolný nástroj – doporučený je papír a tužka.

  1. Do předloženého formuláře doplňte následující hodnoty:

    • Vaše ID a jeho posledních 16 bitů v binární soustavě.

    • Dělicí atribut {x1, x2, x3, x4} a hodnotu podmíněné entropie H(S|xi) vybraného atributu vepište vždy k odpovídajícímu uzlu namísto symbolického textu (hodnota 0 atributu koresponduje vždy s levou větví uzlu, hodnota 1 s pravou); nevyužité uzly ponechte prázdné.

    • V případě shodné hodnoty podmíněné entropie u dvou či více atributů volte vždy ten v pořadí první podle indexu.

    • Hodnotu klasifikační chyby MisclassRate v % vypočtenou z hodnot špatně (zde FP) a správně (zde TP) klasifikovaných záznamů trénovací množiny (tabulky).

    • Skutečně dosaženou hloubku stromu Dvalid ≤ Dmax.


B) Info

Tabulka funkční závislosti y=f(x):

x1 x2 x3 x4 y(x)
0 0 0 0 MSB(ID_16)
0 0 0 1
0 0 1 0
0 0 1 1
0 1 0 0
0 1 0 1
0 1 1 0
0 1 1 1
1 0 0 0
1 0 0 1
1 0 1 0
1 0 1 1
1 1 0 0
1 1 0 1
1 1 1 0
1 1 1 1 LSB(ID_16)