Vysielač -- prenosový kanál --> Príjmač
Ako navrhnúť efektívnu komunikáciu z vysielača tak, aby jej príjmač porozumel?
[quote, Shannon]
fundamental problem of communication" is for the receiver to be able to identify what data was generated by the source, based on the signal it receives through the channel.
Dáta sú množina prvkov (udalostí), ktoré sa môžu opakovať.
['prší','prší','prší','sneží','slnečno','sneží']
[1,1,2,3,2]
Je možné vypočítať pravdepodobnosť každého prvku. Pravdepodobnosť je priamo úmerná početnosti:
(prší) 1 : 2
(sneží) 2 : 2
(slnečno) 3 : 1
ostatné : nula
Spôsob zápisu množiny prvkov.
[1,2,2,4,5,7,7,7]
Najčastejšie symboly by mali mať čo najkratšie kódy.
[1,2,2,4,5,7,7,7]
Minimálne množstvo bitov, potrebné na reprezentáciu jedného prvku z
:
\(S(z) = - \log_2 P(z)\)
Minimálne množstvo bitov, potrebné na reprezentáciu celej množiny \(Z, z \in Z\).
\(S(Z) = - \sum_z P(z) \log_2 P(z)\)
Hľadanie optimálnej sady kódových slov.
Zníženie počtu bitov potrebných na reprezentáciu dát.
Entropia:: Teoreticky maximálna kompresia.
Data compression is the process of reducing the number of bits used to represent data. Data compression entails two processes: in one process the data is compressed, or encoded, to reduce its size; in a second process it is uncompressed, or decoded, to return it to its original state.
Stratová a bezstratová
Vynechanie nepodstatných častí. Nie je možná dekompresia do pôvodnej podoby.
Zmena spôsobu zápisu informácie, Zníženie redundancie v dátach.
Je možné obnovenie do pôvodnej podoby.
Premenlivá dĺžka kódového slova:: Kóduje často opakujúce sa sekvencie s menším počtom bitov Fixná dĺžka kódového slova:: Kóduje dáta ako tokeny
Žiadne kódové slovo nie je prefixom iného kódového slova.
Hľadanie optimálneho prefixového kódovania.
Každému symbolu sa priradí jeho Huffmanov kód.