Kódování tabulek informačních kódů. Kódování textových informací v počítači

Textové informace se skládají ze symbolů: písmen, číslic, interpunkčních znamének atd. Jeden bajt stačí k uložení 256 různých hodnot, což umožňuje umístit do něj libovolný z alfanumerických znaků. Prvních 128 znaků (zabírajících nejméně významných sedm bitů) je standardizováno pomocí kódování ASCII (American Standard Code for Information Interchange). Podstatou kódování je, že každému znaku je přiřazen binární kód od 00000000 do 11111111 nebo odpovídající dekadický kód od 0 do 255. Pro kódování ruských písmen se používají různé kódové tabulky (KOI-8R, CP1251, CP10007, ISO-8859- 5):

KOI8R- osmibitový standard pro kódování písmen azbuky (pro operační systém UNIX). Vývojáři KOI8R umístil znaky ruské abecedy na začátek rozšířené tabulky ASCII tak, aby pozice znaků azbuky odpovídaly jejich fonetickým protějškům v anglické abecedě na konci tabulky. To znamená, že z textu napsaného v KOI8R, výsledkem je text psaný latinkou. Například slova „vysoký dům“ mají tvar „dom vysokiy“;

CP1251– standard osmibitového kódování používaný v OS Windows;

CP10007- standard osmibitového kódování používaný v azbuce operačního systému Macintosh (počítače Apple);

ISO-8859-5 – osmibitový kód schválený jako standard pro kódování ruského jazyka.

Kódování grafických informací

Grafické informace mohou být prezentovány ve dvou formách: analogový A oddělený. Malířské plátno vytvořený umělcem je příklad analogové reprezentace a obrázek vytištěné pomocí tiskárny, skládající se z jednotlivých (prvků) bodů různých barev, je diskrétní reprezentace.

Rozdělením grafického obrazu (vzorkování) se grafická informace převádí z analogové formy do diskrétní formy. V tomto případě se provádí kódování - přiřazení konkrétní hodnoty ve formě kódu každému prvku grafického obrázku. Vytváření a ukládání grafických objektů je možné v několika typech - as vektor, fraktál nebo rastr Snímky. Samostatná položka považována za 3D (trojrozměrnou) grafiku, který kombinuje metody generování vektorových a rastrových obrázků.

Vektorová grafika používá se k reprezentaci grafických obrázků, jako jsou obrázky, kresby, diagramy.

Jsou tvořeny objekty - množinou geometrických primitiv (body, čáry, kruhy, obdélníky), kterým jsou přiřazeny určité vlastnosti, například tloušťka čáry, barva výplně.

Obrázek ve vektorovém formátu zjednodušuje proces úprav, protože obrázek lze bez ztráty zmenšit, otočit a deformovat. Navíc každá transformace zničí starý obraz (nebo fragment) a na jeho místo se postaví nový. Tato metoda prezentace je vhodná pro diagramy a obchodní grafiku. Při kódování vektorového obrázku se neukládá obrázek samotného objektu, ale souřadnice bodů, pomocí kterého program pokaždé znovu vytvoří obrázek.

Hlavní nevýhoda vektorová grafika je neschopnost vytvářet snímky ve fotografické kvalitě. Ve vektorovém formátu bude obrázek vždy vypadat jako kresba.

Rastrová grafika. Jakýkoli obrázek lze rozdělit na čtverce, čímž získáte rastr - dvourozměrné polečtverce. Samotné náměstí - rastrové prvky nebo pixely(prvek obrázku) - barva každého pixelu je kódována číslem, které umožňuje určit pořadí čísel barev (zleva doprava nebo shora dolů) pro popis počtu každého obrázku buňka, ve které je pixel uložen, je zaznamenána v paměti.

Kresba v rastrovém formátu

Každému pixelu jsou přiřazeny hodnoty jasu, barvy a průhlednosti nebo kombinace těchto hodnot. Rastrový obrázek má řadu řádků a sloupců. Tento způsob ukládání má své nevýhody: větší množství paměti potřebné pro práci s obrázky.

Objem rastrového obrázku se určí vynásobením počtu pixelů informačním objemem jednoho bodu, který závisí na počtu možných barev. Moderní počítače používají především následující rozlišení obrazovky: 640 x 480, 800 x 600, 1024 x 768 a 1280 x 1024 pixelů. Jas každého bodu a jeho souřadnice lze vyjádřit pomocí celých čísel, což umožňuje použití binárního kódu pro zpracování grafických dat.

V nejjednodušším případě (černobílý obrázek bez stupňů šedi) může mít každý bod na obrazovce jeden ze dvou stavů – „černý“ nebo „bílý“, to znamená, že k uložení jeho stavu je potřeba 1 bit. Barevné obrázky jsou generovány podle binárního barevného kódu každého pixelu uloženého ve video paměti. Barevné obrázky mohou mít různé barevné hloubky, které jsou určeny počtem bitů použitých ke kódování barvy bodu. Nejběžnější barevné hloubky jsou 8, 16, 24, 32, 64 bitů.

Pro kódování barevných grafických obrázků je libovolná barva rozdělena do jejích složek. Používají se následující kódovací systémy:

HSB (H - odstín, S - sytost, B - jas),

RGB (červená - Červené,Zelená - zelená, Modrá- modrý) A

CMYK ( C yan - modrá, Purpurová - fialová, Žlutá - žlutá a Černá - černá).

První systém je vhodný pro osoba, druhý - pro počítačové zpracování a poslední je pro tiskárny. Použití těchto barevných systémů je dáno tím, že světelný tok může být tvořen zářením, které je kombinací „čistých“ spektrálních barev: červené, zelené, modré nebo jejich derivátů.

Fraktál je objekt, jehož jednotlivé prvky dědí vlastnosti nadřazených struktur. Protože k podrobnějšímu popisu prvků v menším měřítku dochází pomocí jednoduchého algoritmu, lze takový objekt popsat pouze několika matematickými rovnicemi. Fraktály umožňují popisovat obrázky, které vyžadují relativně málo paměti k podrobnému znázornění.

Kresba ve fraktálovém formátu

3D grafika (3D) pracuje s objekty v trojrozměrném prostoru. Trojrozměrná počítačová grafika je široce používána v kině a počítačových hrách, kde jsou všechny objekty reprezentovány jako soubor povrchů nebo částic. Všechny vizuální transformace ve 3D grafice jsou ovládány pomocí operátory s maticovou reprezentací.

Kódování zvukových informací

Hudba, jako každý zvuk, není nic jiného než zvukové vibrace, které lze po zaregistrování reprodukovat poměrně přesně. Pro reprezentaci zvukového signálu v paměti počítače je nutné reprezentovat přijímané akustické vibrace v digitální podobě, to znamená převést je na sekvenci nul a jedniček. Pomocí mikrofonu se zvuk převádí na elektrické vibrace, po kterých lze pomocí speciálního zařízení měřit amplitudu vibrací v pravidelných intervalech (několik desítek tisíckrát za sekundu) - analogově-digitální převodník (ADC). Pro reprodukci zvuku musí být digitální signál převeden na analogový pomocí digitálně-analogový převodník (DAC). Obě tato zařízení jsou vestavěna zvuková karta počítač. Naznačený sled transformací je uveden na Obr. 2.6.

Transformace analogového signálu na digitální signál a naopak

Každé měření zvuku je zaznamenáno v binárním kódu. Tento proces se nazývá odběr vzorků (vzorkování), provádí pomocí ADC.

Vzorek (sample English sample) je časový interval mezi dvěma měřeními amplitudy analogového signálu. Kromě časového období se vzorek také nazývá jakákoli sekvence digitálních dat, která se získá analogově-digitální konverzí. Důležitý parametr vzorkování je frekvence - počet měření amplitudy analogového signálu za sekundu. Rozsah vzorkovací frekvence zvuku od 8000 do 48000 měření za sekundu.

Grafické znázornění procesu vzorkování

Kvalita přehrávání je ovlivněna vzorkovací frekvence a rozlišení(velikost buňky přidělené pro záznam hodnoty amplitudy). Například nahrávání hudby na CD používá 16bitové hodnoty a vzorkovací frekvenci 44032 Hz.

Sluchem člověk vnímá zvukové vlny o frekvenci od 16 Hz do 20 kHz (1 Hz - 1 vibrace za sekundu).

Ve formátu Audio DVD CD je signál změřen 96 000krát za jednu sekundu, tzn. Používá se vzorkovací frekvence 96 kHz. Pro úsporu místa na pevném disku v multimediálních aplikacích se často používají nižší frekvence: 11, 22, 32 kHz. To vede ke snížení slyšitelného frekvenčního rozsahu, což znamená, že slyšené je zkreslené.

Množina znaků, kterými je text psán, se nazývá abeceda.

Počet znaků v abecedě je jeho Napájení.

Vzorec pro určení množství informací: N=2b,

kde N je mocnina abecedy (počet znaků),

b – počet bitů (informační váha symbolu).

Abeceda s kapacitou 256 znaků pojme téměř všechny potřebné znaky. Tato abeceda se nazývá dostatečný.

Protože 256 = 2 8, pak váha 1 znaku je 8 bitů.

Jednotka měření 8 bitů dostala název 1 bajt:

1 bajt = 8 bitů.

Binární kód každého znaku v počítačovém textu zabírá 1 bajt paměti.

Jak jsou textové informace reprezentovány v paměti počítače?

Pohodlí kódování znaků po bajtech je zřejmé, protože bajt je nejmenší adresovatelná část paměti, a proto může procesor při zpracování textu přistupovat ke každému znaku zvlášť. Na druhou stranu je 256 znaků zcela dostačující pro reprezentaci široké škály symbolických informací.

Nyní vyvstává otázka, jaký osmibitový binární kód každému znaku přiřadit.

Je jasné, že se jedná o podmíněnou záležitost, můžete přijít s mnoha způsoby kódování.

Všechny znaky počítačové abecedy jsou číslovány od 0 do 255. Každému číslu odpovídá osmibitový binární kód od 00000000 do 11111111. Tento kód je jednoduše pořadové číslo znaku v binární číselné soustavě.

Tabulka, ve které jsou všem znakům počítačové abecedy přiřazena pořadová čísla, se nazývá kódovací tabulka.

Pro odlišné typy Počítače používají různé kódovací tabulky.

Stůl se stal mezinárodním standardem pro PC ASCII(přečtěte si aski) (Americký standardní kód pro výměnu informací).

Tabulka ASCII kódů je rozdělena na dvě části.

Pouze první polovinu tabulky tvoří mezinárodní standard, tzn. symboly s čísly od 0 (00000000), až 127 (01111111).

Struktura tabulky kódování ASCII

Sériové číslo

Kód

Symbol

0 - 31

00000000 - 00011111

Symboly s čísly od 0 do 31 se obvykle nazývají kontrolní symboly.
Jejich funkcí je řídit proces zobrazení textu na obrazovce nebo tisku, zaznít zvukový signál, označit text atd.

32 - 127

00100000 - 01111111

Standardní část tabulky (anglicky). Patří sem malá a velká písmena latinské abecedy, desetinná čísla, interpunkční znaménka, všechny druhy hranatých závorek, obchodní a jiné symboly.
Znak 32 je mezera, tzn. prázdné místo v textu.
Všechny ostatní se odrážejí v určitých znameních.

128 - 255

10000000 - 11111111

Alternativní část tabulky (ruština).
Druhá polovina tabulky kódů ASCII, nazývaná kódová stránka (128 kódů počínaje 10000000 a končící 11111111), může mít různé možnosti, každá možnost má své vlastní číslo.
Kódová stránka se primárně používá k umístění jiných národních abeced než latinky. V ruském národním kódování jsou v této části tabulky umístěny znaky z ruské abecedy.

První polovina tabulky kódů ASCII


Upozorňujeme, že v tabulce kódování jsou písmena (velká a malá písmena) uspořádána v abecedním pořadí a čísla jsou seřazeny vzestupně. Toto dodržování lexikografického řádu v uspořádání symbolů se nazývá princip sekvenčního kódování abecedy.

U písmen ruské abecedy je také dodržován princip sekvenčního kódování.

Druhá polovina tabulky kódů ASCII


Bohužel v současnosti existuje pět různých kódování azbuky (KOI8-R, Windows, MS-DOS, Macintosh a ISO). Z tohoto důvodu často vznikají problémy s přenosem ruského textu z jednoho počítače do druhého, z jednoho softwarový systém jinému.

Chronologicky byl jedním z prvních standardů pro kódování ruských písmen na počítačích KOI8 ("Information Exchange Code, 8-bit"). Toto kódování se používalo již v 70. letech na počítačích počítačové řady ES a od poloviny 80. let se začalo používat v prvních rusifikovaných verzích operačního systému UNIX.

Z počátku 90. let, doby dominance operačního systému MS DOS, zůstává kódování CP866 ("CP" znamená "Code Page", "code page").

Počítače Apple s operačním systémem Mac OS používají vlastní kódování Mac.

Mezinárodní organizace pro normalizaci (ISO) navíc schválila další kódování nazvané ISO 8859-5 jako standard pro ruský jazyk.

V současnosti se nejčastěji používá kódování Microsoft Windows, zkráceně CP1251.

Od konce 90. let byl problém standardizace kódování znaků řešen zavedením nového mezinárodního standardu tzv. Unicode. Jedná se o 16bitové kódování, tzn. každému znaku přiděluje 2 bajty paměti. To samozřejmě zvyšuje množství obsazené paměti 2krát. Ale taková kódová tabulka umožňuje zahrnutí až 65536 znaků. Kompletní specifikace standardu Unicode zahrnuje všechny existující, zaniklé a uměle vytvořené abecedy světa, stejně jako mnoho matematických, hudebních, chemických a dalších symbolů.

Zkusme si pomocí ASCII tabulky představit, jak budou slova vypadat v paměti počítače.

Vnitřní reprezentace slov v paměti počítače

Někdy se stává, že text sestávající z písmen ruské abecedy přijatý z jiného počítače nelze přečíst - na obrazovce monitoru je vidět nějaký druh „abracadabra“. K tomu dochází, protože počítače používají různá kódování znaků pro ruský jazyk.

Kódování textových informací v počítači je někdy základní podmínkou pro správnou funkci zařízení nebo zobrazení konkrétního fragmentu. Jak k tomuto procesu dochází při provozu počítače s textovými a vizuálními informacemi, zvukem - to vše analyzujeme v tomto článku.

Úvod

Elektronický počítač (který jsme Každodenní životŘíkáme tomu počítač) vnímá text velmi specifickým způsobem. Kódování textových informací je pro ni velmi důležité, protože každý textový fragment vnímá jako skupinu vzájemně izolovaných symbolů.

Jaké jsou symboly?

Jako symboly pro počítač fungují nejen ruská, anglická a další písmena, ale také interpunkční znaménka a další znaky. I prostor, který používáme k oddělení slov při psaní na počítači, zařízení vnímá jako symbol. V něčem to velmi připomíná vyšší matematiku, protože tam má nula podle mnoha profesorů dvojí význam: je to jak číslo, tak zároveň nic neznamená. I pro filozofy může být otázka bílého prostoru naléhavým problémem. Vtip, samozřejmě, ale jak se říká, na každém vtipu je něco pravdy.

Jaké informace existují?

Aby tedy mohl počítač vnímat informace, musí začít zpracovávat procesy. Jaké informace tam vůbec jsou? Tématem tohoto článku je kódování textových informací. Tomuto úkolu budeme věnovat zvláštní pozornost, ale budeme se věnovat i dalším mikrotématům.

Informace mohou být textové, číselné, zvukové, grafické. Počítač musí spouštět procesy, které kódují textové informace, aby se na obrazovce zobrazilo to, co například píšeme na klávesnici. Uvidíme symboly a písmena, to je pochopitelné. Co stroj vidí? Naprosto všechny informace – a teď nemluvíme jen o textu – vnímá jako určitou posloupnost nul a jedniček. Tvoří základ tzv. binárního kódu. Proto se proces, který převádí informace přijaté zařízením na něco, čemu rozumí, nazývá „binární kódování textových informací“.

Stručný princip fungování binárního kódu

Proč je binární kódování informací nejrozšířenější v elektronických strojích? Textový základ, který je zakódován pomocí nul a jedniček, může být naprosto libovolná sekvence symbolů a znaků. To však není jediná výhoda, kterou binární textové kódování informací má. Jde o to, že princip, na kterém je tato metoda kódování založena, je velmi jednoduchý, ale zároveň docela funkční. Když dojde k elektrickému impulsu, je označen (samozřejmě podmíněně) jednotkou. Neexistuje žádný impuls - označeno nulou. To znamená, že textové kódování informací je založeno na principu konstrukce sekvence elektrických impulsů. Logická sekvence složená ze symbolů binárního kódu se nazývá strojový jazyk. Kódování a zpracování textových informací pomocí binárního kódu zároveň umožňuje provádění operací v poměrně krátkém časovém úseku.

Bity a bajty

Číslo vnímané strojem obsahuje určité množství informací. Je roven jednomu bitu. To platí pro každou jednu a každou nulu, která tvoří tu či onu sekvenci zašifrovaných informací.

V souladu s tím může být množství informací v každém případě určeno jednoduše pomocí znalosti počtu znaků v sekvenci binárního kódu. Budou si číselně rovny. 2 číslice v kódu nesou 2 bity informace, 10 číslic - 10 bitů a tak dále. Princip určování objemu informací, které leží v konkrétním fragmentu binárního kódu, je docela jednoduchý, jak vidíte.

Kódování textových informací v počítači

Právě teď čtete článek, který se skládá z posloupnosti, jak věříme, písmen ruské abecedy. A počítač, jak již bylo zmíněno dříve, vnímá všechny informace (a v tomto případě také) jako posloupnost nikoli písmen, ale nul a jedniček, indikujících nepřítomnost a přítomnost elektrického impulsu.

Jde o to, že můžete zakódovat jeden znak, který vidíme na obrazovce, pomocí konvenční jednotky měření zvané bajt. Jak je psáno výše, binární kód má tzv. informační zátěž. Připomeňme, že číselně se rovná celkovému počtu nul a jedniček ve vybraném fragmentu kódu. Takže 8 bitů tvoří 1 bajt. Kombinace signálů mohou být velmi odlišné, jak lze snadno vidět nakreslením obdélníku na papír, který se skládá z 8 buněk stejné velikosti.

Ukazuje se, že textové informace lze kódovat pomocí abecedy s kapacitou 256 znaků. Jaký to má smysl? Význam spočívá v tom, že každý znak bude mít svůj vlastní binární kód. Kombinace „svázané“ s určitými znaky začínají od 00000000 a končí 11111111. Pokud přejdete z dvojkové do desítkové soustavy, můžete v takovém systému kódovat informace od 0 do 255.

Nezapomeňte, že nyní existují různé tabulky, které používají kódování písmen ruské abecedy. Jedná se například o ISO a KOI-8, Mac a CP ve dvou variantách: 1251 a 866. Je snadné se ujistit, že text zakódovaný v jedné z těchto tabulek se nebude správně zobrazovat v jiném kódování, než je toto. To je způsobeno tím, že v různých tabulkách různé znaky odpovídají stejnému binárnímu kódu.

To byl zpočátku problém. V dnešní době však programy již mají zabudované speciální algoritmy, které převádějí text a přivádějí jej do správné podoby. Rok 1997 byl ve znamení vytvoření kódování s názvem Unicode. V něm má každá postava k dispozici 2 bajty. To vám umožní kódovat text s mnohem větším počtem znaků. 256 a 65536: je v tom rozdíl?

Kódování grafiky

Kódování textových a grafických informací má určité podobnosti. Jak víte, používá se k zobrazení grafických informací periferní zařízení počítač zvaný monitor. Grafika (nyní mluvíme o počítačové grafice) je široce používána v různých oblastech. Naštěstí hardwarové možnosti osobní počítače umožňují řešit poměrně složité grafické problémy.

Zpracování obrazových informací je v posledních letech možné. Text je však mnohem „lehčí“ než grafika, což je v zásadě srozumitelné. Z tohoto důvodu je nutné zvětšit konečnou velikost grafických souborů. Takové problémy lze překonat poznáním podstaty, ve které jsou grafické informace prezentovány.

Nejprve si ujasněme, do jakých skupin se tento typ informací dělí. Za prvé je to rastr. Za druhé, vektor.

Rastrové obrázky jsou velmi podobné kostkovanému papíru. Každá buňka na takovém papíru je přetřena jednou nebo druhou barvou. Tento princip trochu připomíná mozaiku. To znamená, že se ukazuje, že v rastrové grafice je obrázek rozdělen na samostatné elementární části. Říká se jim pixely. Přeloženo do ruštiny, pixely znamenají „tečky“. Je logické, že pixely jsou seřazeny vzhledem k čarám. Grafická mřížka se skládá pouze z určitého počtu pixelů. Říká se mu také rastr. Vzhledem k těmto dvěma definicím můžeme říci, že rastrový obrázek není nic jiného než soubor pixelů, které jsou zobrazeny na obdélníkové mřížce.

Rastr monitoru a velikost pixelů ovlivňují kvalitu obrazu. Čím větší je rastr monitoru, tím vyšší bude. Velikosti rastrů jsou rozlišení obrazovky, o kterém snad každý uživatel slyšel. Jednou z nejdůležitějších vlastností počítačových obrazovek je rozlišení, nejen rozlišení. Ukazuje, kolik pixelů je na jednotku délky. Rozlišení monitoru se obvykle měří v pixelech na palec. Čím více pixelů na jednotku délky, tím vyšší bude kvalita, protože „zrnitost“ je snížena.

Zpracování audio streamu

Kódování textových a zvukových informací, stejně jako jiné typy kódování, má některé funkce. Promluvme si nyní o poslední proces: kódování zvukových informací.

Reprezentaci zvukového proudu (stejně jako jednotlivého zvuku) lze vytvořit dvěma způsoby.

Analogová forma reprezentace zvukové informace

V tomto případě může hodnota skutečně nabýt velké množství různé významy. Navíc tyto stejné hodnoty nezůstávají konstantní: mění se velmi rychle a tento proces je nepřetržitý.

Diskrétní forma reprezentace zvukové informace

Pokud mluvíme o diskrétní metodě, pak v tomto případě může veličina nabývat pouze omezeného počtu hodnot. V tomto případě ke změně dochází křečovitě. Můžete diskrétně kódovat nejen zvuk, ale také grafické informace. Mimochodem, pokud jde o analogovou formu.

Analogové zvukové informace jsou uloženy například na vinylových deskách. Ale CD je již diskrétní způsob prezentace zvukových informací.

Na úplném začátku jsme mluvili o tom, že počítač vnímá všechny informace ve strojovém jazyce. K tomu jsou informace zakódovány ve formě sekvence elektrických impulsů – nul a jedniček. Kódování zvukových informací není výjimkou z tohoto pravidla. Chcete-li zpracovat zvuk na počítači, musíte jej nejprve převést do této sekvence. Teprve poté lze provádět operace se streamem nebo jedním zvukem.

Když dojde k procesu kódování, proud podléhá časovému vzorkování. Zvuková vlna je nepřetržitá, vyvíjí se po malé časové úseky. Hodnota amplitudy se nastavuje pro každý konkrétní interval zvlášť.

Závěr

Co jsme tedy během tohoto článku zjistili? Za prvé, absolutně všechny informace, které se zobrazují na monitoru počítače, jsou zakódovány, než se tam objeví. Za druhé, toto kódování zahrnuje překlad informací do strojového jazyka. Za třetí, strojový jazyk není nic jiného než sled elektrických impulzů – nul a jedniček. Za čtvrté, existují samostatné tabulky pro kódování různých znaků. A za páté, grafické a zvukové informace mohou být prezentovány v analogové a diskrétní formě. Zde jsou možná hlavní body, o kterých jsme diskutovali. Jeden ze studujících oborů tato oblast, je informatika. Kódování textových informací a jeho základy se vysvětlují ve škole, protože na tom není nic složitého.

Obsah

I. Historie kódování informací…………………………………..3

II. Kódování informací ……………………………………………………………… 4

III. Kódování textových informací………………………………….4

IV. Typy kódovacích tabulek………………………………………………………...6

V. Výpočet množství textových informací………………………………14

Seznam referencí………………………………..16

. Historie kódování informací

Lidstvo používá textové šifrování (kódování) od okamžiku, kdy se objevily první tajné informace. Zde je několik technik kódování textu, které byly vynalezeny v různých fázích vývoje lidského myšlení:

Kryptografie je tajné psaní, systém změny písma, aby byl text pro nezasvěceného nesrozumitelný;

Morseova abeceda nebo nerovnoměrný telegrafní kód, ve kterém je každé písmeno nebo znak reprezentováno vlastní kombinací krátkých žetonů elektrický proud(tečky) a elementární parcely s trojnásobným trváním (pomlčka);

Podpisová gesta jsou znakový jazyk používaný lidmi se sluchovým postižením.

Jedna z nejstarších známých šifrovacích metod je pojmenována po římském císaři Juliu Caesarovi (1. století před naším letopočtem). Tato metoda je založena na nahrazení každého písmena zašifrovaného textu jiným, posunutím abecedy od původního písmene o pevný počet znaků a abeceda se čte v kruhu, tedy za písmenem i se považuje a . Takže slovo „byte“, když je posunuto o dva znaky doprava, je zakódováno jako slovo „gwlf“. Opačný proces dešifrování daného slova je nutný k nahrazení každého zašifrovaného písmene druhým nalevo od něj.

II. Kódování informací

Kód je sada symboly(nebo signály) k záznamu (nebo přenosu) některých předem definovaných pojmů.

Informační kódování je proces formování specifické reprezentace informace. V užším slova smyslu je pojem „kódování“ často chápán jako přechod od jedné formy reprezentace informace k jiné, vhodnější pro ukládání, přenos nebo zpracování.

Obvykle je každý obrázek při kódování (někdy nazývaném šifrování) reprezentován samostatným znakem.

Znak je prvek konečného souboru prvků, které se od sebe liší.

V užším slova smyslu je pojem „kódování“ často chápán jako přechod od jedné formy reprezentace informace k jiné, vhodnější pro ukládání, přenos nebo zpracování.

Textové informace můžete zpracovávat na počítači. Při zadávání do počítače je každé písmeno zakódováno určitým číslem a při výstupu na externí zařízení (obrazovka nebo tisk) jsou z těchto čísel vytvořeny obrázky písmen pro lidské vnímání. Korespondence mezi sadou písmen a čísel se nazývá kódování znaků.

Všechna čísla v počítači jsou zpravidla reprezentována nulami a jedničkami (nikoli deseti číslicemi, jak je u lidí obvyklé). Jinými slovy, počítače obvykle pracují v binárním číselném systému, protože díky tomu jsou zařízení pro jejich zpracování mnohem jednodušší. Zadávání čísel do počítače a jejich výstup pro čtení člověkem lze provádět v obvyklém desítkovém tvaru a všechny potřebné převody provádějí programy běžící na počítači.

III. Kódování textových informací

Stejné informace mohou být prezentovány (zakódovány) v několika formách. S příchodem počítačů vyvstala potřeba zakódovat všechny typy informací, kterými se jednotlivec i lidstvo jako celek zabývá. Ale lidstvo začalo řešit problém kódování informací dávno před příchodem počítačů. Grandiózní výdobytky lidstva – psaní a aritmetika – nejsou ničím jiným než systémem pro kódování řeči a číselných informací. Informace se nikdy neobjevují ve své čisté podobě, vždy jsou nějak prezentovány, nějak zakódovány.

Binární kódování je jedním z běžných způsobů reprezentace informací. V počítače V CNC robotech a obráběcích strojích jsou obvykle všechny informace, se kterými zařízení pracuje, zakódovány jako slova binární abecedy.

Od konce 60. let se počítače stále častěji používají ke zpracování textových informací a v současné době je většina osobních počítačů na světě (a většinu času) zaměstnána zpracováním textových informací. Všechny tyto typy informací v počítači jsou prezentovány v binárním kódu, to znamená, že se používá abeceda s mocninou dvě (pouze dva znaky 0 a 1). To je způsobeno skutečností, že je vhodné reprezentovat informace ve formě sekvence elektrických impulsů: neexistuje impuls (0), existuje impuls (1).

Takové kódování se obvykle nazývá binární a samotné logické sekvence nul a jedniček se nazývají strojový jazyk.

Z počítačového hlediska se text skládá z jednotlivých znaků. Symboly zahrnují nejen písmena (velká nebo malá písmena, latinka nebo ruština), ale také čísla, interpunkční znaménka, speciální znaky jako "=", "(", "&" atd., a dokonce (pozor!) mezery mezi slovy.

Texty se zadávají do paměti počítače pomocí klávesnice. Písmena, čísla, interpunkční znaménka a další nám známé symboly jsou napsány na klávesách. Zadávají RAM v binárním kódu. To znamená, že každý znak je reprezentován 8bitovým binárním kódem.

Tradičně se pro zakódování jednoho znaku používá množství informace rovné 1 bajtu, tj. I = 1 bajt = 8 bitů. Pomocí vzorce, který spojuje počet možných událostí K a množství informací I, můžete vypočítat, kolik různých symbolů lze zakódovat (za předpokladu, že symboly jsou možné události): K = 2 I = 2 8 = 256, tj. představují textové informace, můžete použít abecedu s kapacitou 256 znaků.

Tento počet znaků je zcela dostatečný pro reprezentaci textových informací, včetně velkých a malých písmen ruské a latinské abecedy, čísel, znaků, grafických symbolů atd.

Kódování spočívá v přiřazení každého znaku jedinečného dekadického kódu od 0 do 255 nebo odpovídajícího binárního kódu od 00000000 do 11111111. Člověk tedy rozlišuje znaky podle jejich obrysu a počítač podle jejich kódu.

Pohodlí kódování znaků po bajtech je zřejmé, protože bajt je nejmenší adresovatelná část paměti, a proto může procesor při zpracování textu přistupovat ke každému znaku zvlášť. Na druhou stranu je 256 znaků zcela dostačující pro reprezentaci široké škály symbolických informací.

V procesu zobrazení symbolu na obrazovce počítače se provádí opačný proces - dekódování, tedy převod kódu symbolu na jeho obraz. Důležité je, že přiřazení konkrétního kódu k symbolu je věcí dohody, která je zaznamenána v tabulce kódů.

Nyní vyvstává otázka, jaký osmibitový binární kód každému znaku přiřadit. Je jasné, že se jedná o podmíněnou záležitost, můžete přijít s mnoha způsoby kódování.

Všechny znaky počítačové abecedy jsou číslovány od 0 do 255. Každému číslu odpovídá osmibitový binární kód od 00000000 do 11111111. Tento kód je jednoduše pořadové číslo znaku v binární číselné soustavě.

IV . Typy kódovacích tabulek

Tabulka, ve které jsou všem znakům počítačové abecedy přiřazena pořadová čísla, se nazývá kódovací tabulka.

Různé typy počítačů používají různé kódovací tabulky.

Tabulka kódů ASCII (American Standard Code for Information Interchange) byla přijata jako mezinárodní standard, který kóduje první polovinu znaků číselnými kódy od 0 do 127 (kódy od 0 do 32 nejsou přiřazeny znakům, ale funkčním klávesám) .

Tabulka ASCII kódů je rozdělena na dvě části.

Pouze první polovinu tabulky tvoří mezinárodní standard, tzn. znaky s čísly od 0 (00000000) do 127 (01111111).

Struktura tabulky kódování ASCII

Sériové číslo Kód Symbol
0 - 31 00000000 - 00011111

Symboly s čísly od 0 do 31 se obvykle nazývají kontrolní symboly.

Jejich funkcí je řídit proces zobrazení textu na obrazovce nebo tisku, zaznít zvukový signál, označit text atd.

32 - 127 0100000 - 01111111

Standardní část tabulky (anglicky). Patří sem malá a velká písmena latinské abecedy, desetinná čísla, interpunkční znaménka, všechny druhy hranatých závorek, obchodní a jiné symboly.

Znak 32 je mezera, tzn. prázdné místo v textu.

Všechny ostatní se odrážejí v určitých znameních.

128 - 255 10000000 - 11111111

Alternativní část tabulky (ruština).

Druhá polovina tabulky kódů ASCII, nazývaná kódová stránka (128 kódů počínaje 10000000 a končící 11111111), může mít různé možnosti, každá možnost má své vlastní číslo.

Kódová stránka se primárně používá k umístění jiných národních abeced než latinky. V ruském národním kódování jsou v této části tabulky umístěny znaky z ruské abecedy.

První polovina tabulky kódů ASCII

Upozorňujeme, že v tabulce kódování jsou písmena (velká a malá písmena) uspořádána v abecedním pořadí a čísla jsou seřazeny vzestupně. Toto dodržování lexikografického řádu v uspořádání symbolů se nazývá princip sekvenčního kódování abecedy.

U písmen ruské abecedy je také dodržován princip sekvenčního kódování.

Druhá polovina tabulky kódů ASCII

Bohužel v současnosti existuje pět různých kódování azbuky (KOI8-R, Windows, MS-DOS, Macintosh a ISO). Z tohoto důvodu často vznikají problémy s přenosem ruského textu z jednoho počítače do druhého, z jednoho softwarového systému do druhého.

Chronologicky byl jedním z prvních standardů pro kódování ruských písmen na počítačích KOI8 ("Information Exchange Code, 8-bit"). Toto kódování se používalo již v 70. letech na počítačích počítačové řady ES a od poloviny 80. let se začalo používat v prvních rusifikovaných verzích operačního systému UNIX.

Z počátku 90. let, doby dominance operačního systému MS DOS, zůstává kódování CP866 ("CP" znamená "Code Page", "code page").

Počítače Apple s operačním systémem Mac OS používají vlastní kódování Mac.

Mezinárodní organizace pro normalizaci (ISO) navíc schválila další kódování nazvané ISO 8859-5 jako standard pro ruský jazyk.

Nejběžnějším aktuálně používaným kódováním je Microsoft Windows, zkráceně CP1251. Představený společností Microsoft; vzhledem k rozšířenosti operační systémy(OS) a další softwarové produkty této společnosti v Ruské federaci našly širokou distribuci.

Od konce 90. let byl problém standardizace kódování znaků řešen zavedením nového mezinárodního standardu nazvaného Unicode.

Jedná se o 16bitové kódování, tzn. každému znaku přiděluje 2 bajty paměti. To samozřejmě zvyšuje množství obsazené paměti 2krát. Ale taková kódová tabulka umožňuje zahrnutí až 65536 znaků. Kompletní specifikace standardu Unicode zahrnuje všechny existující, zaniklé a uměle vytvořené abecedy světa, stejně jako mnoho matematických, hudebních, chemických a dalších symbolů.

Vnitřní reprezentace slov v paměti počítače

pomocí ASCII tabulky

Někdy se stává, že text sestávající z písmen ruské abecedy přijatý z jiného počítače nelze přečíst - na obrazovce monitoru je vidět nějaký druh „abracadabra“. K tomu dochází, protože počítače používají různá kódování znaků pro ruský jazyk.

Každé kódování je tedy specifikováno vlastní kódovou tabulkou. Jak je vidět z tabulky, stejnému binárnímu kódu jsou přiřazeny různé znaky v různých kódováních.

Například sekvence číselných kódů 221, 194, 204 v kódování CP1251 tvoří slovo „počítač“, zatímco v jiných kódováních to bude nesmyslná sada znaků.

Naštěstí se uživatel ve většině případů nemusí starat o překódování textových dokumentů, protože to zajišťují speciální převodní programy zabudované do aplikací.

PROTI . Výpočet množství textových informací

Úkol 1: Kódujte slovo „Řím“ pomocí kódovacích tabulek KOI8-R a CP1251.

Řešení:

Úkol 2: Za předpokladu, že každý znak je zakódován v jednom bajtu, odhadněte objem informací následující věty:

"Můj strýc má ta nejčestnější pravidla,

Když jsem vážně onemocněl,

Přinutil se respektovat

A nic lepšího mě nenapadlo."

Řešení: Tato fráze má 108 znaků včetně interpunkce, uvozovek a mezer. Toto číslo vynásobíme 8 bity. Dostaneme 108*8=864 bitů.

Úkol 3: Oba texty obsahují stejný počet znaků. První text je napsán v ruštině a druhý v jazyce kmene Naguri, jehož abeceda se skládá ze 16 znaků. Čí text obsahuje více informací?

Řešení:

1) I = K * a (informační objem textu je roven součinu počtu znaků a informační váhy jednoho znaku).

2) Protože Oba texty mají stejný počet znaků (K), rozdíl pak závisí na informačním obsahu jednoho znaku abecedy (a).

3) 2 a1 = 32, tzn. a 1 = 5 bitů, 2 a2 = 16, tzn. a 2 = 4 bity.

4) I 1 = K * 5 bitů, I 2 = K * 4 bity.

5) To znamená, že text psaný v ruštině nese 5/4krát více informací.

Úkol 4: Velikost zprávy obsahující 2048 znaků byla 1/512 MB. Určete sílu abecedy.

Řešení:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 bitů - převedení informačního objemu zprávy na bity.

2) a = I / K = 16384 /1024 = 16 bitů - odpovídá jednomu znaku abecedy.

3) 2*16*2048 = 65536 znaků – síla použité abecedy.

Úkol 5: Laserová tiskárna Canon LBP tiskne průměrnou rychlostí 6,3 Kbps. Jak dlouho bude trvat tisk 8stránkového dokumentu, pokud víte, že jedna stránka má průměrně 45 řádků a 70 znaků na řádek (1 znak - 1 bajt)?

Řešení:

1) Najděte množství informací obsažených na 1 stránce: 45 * 70 * 8 bitů = 25200 bitů

2) Najděte množství informací na 8 stránkách: 25200 * 8 = 201600 bitů

3) Redukujeme na běžné měrné jednotky. Za tímto účelem převedeme Mbity na bity: 6,3*1024=6451,2 bitů/s.

4) Najděte čas tisku: 201600: 6451,2 = 31 sekund.

Bibliografie

1. Ageev V.M. Teorie informace a kódování: vzorkování a kódování naměřených informací. - M.: MAI, 1977.

2. Kuzmin I.V., Kedrus V.A. Základy teorie informace a kódování. - Kyjev, škola Vishcha, 1986.

3. Nejjednodušší metody šifrování textu / D.M. Zlatopolský. – M.: Chistye Prudy, 2007 – 32 s.

4. Ugrinovič N.D. Počítačová věda a informační technologie. Učebnice pro ročníky 10-11 / N.D. Ugrinovich. – M.: BINOM. Laboratoř znalostí, 2003. – 512 s.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n

Princip sekvenčního kódování abecedy: V tabulce kódování jsou písmena (velká a malá písmena) uspořádána v abecedním pořadí a čísla jsou uspořádána ve vzestupném pořadí podle hodnoty.

Obrázek 8 z prezentace „Texty v paměti počítače» na hodiny informatiky na téma „Text“

Rozměry: 960 x 720 pixelů, formát: jpg. Chcete-li si zdarma stáhnout obrázek pro lekci informatiky, klikněte pravým tlačítkem na obrázek a klikněte na „Uložit obrázek jako...“. Pro zobrazení obrázků ve třídě si také můžete zdarma stáhnout celou prezentaci „Texty v paměti počítače.ppsx“ se všemi obrázky v zip archivu. Velikost archivu je 89 kB.

Stáhnout prezentaci

Text

„Určení množství informací“ - N=2I. Ne hmota a ne energie...? Množství informací. Informace. Jak mohu měřit množství přijatých informací? Cíle Studovat metody pro stanovení množství informací: kvantitativní; abecední. Měříme... Nedivte se, informace se dají měřit kvantitativně. Abecední přístup k určování množství informací.

„Kódování v počítačové vědě“ - Tabulka ASCII kódů pro Rusko. O čem? kde je uložen? jak je to zakódováno? Kódování informací v informatice a biologii. struktura DNA. Gen. Plán lekce: Podstata kódování. Autoři prostorového modelu DNA. Domácí úkol: Srovnávací tabulka. Triplety Jedinečnost Degenerace Univerzálnost Nepřekrývající se.

„Kódování textových informací“ – V dokumentu se objeví symbol „a“. Určení číselného kódu znaku. Kód symbolu je uložen v paměť s náhodným přístupem počítač, kde zabírá 1 bajt. 1. Spusťte standardní program Poznámkový blok. Zadejte příkaz [Vložit symbol...]. Zadávání znaků pomocí číselného kódu. Na obrazovce se objeví dialogové okno Symbol. Kódování textových informací.

„Reprezentace čísel v paměti počítače“ - Reprezentace celého čísla. (2). Téma lekce: Malý rozsah. 31. 0 číslice. Paměť. -25. 111111112= =1*27 + 1*26 + 1*25 + 1*24 + 1*23 + 1*22 + 1*21 + 1*20=25510. (10). Počítačová reprezentace celých čísel. Vysvětlete potřebu použití celočíselných datových typů. Datové formáty.

„Znakové systémy pro kódování informací“ - Kódování informací pomocí znakových systémů. Přirozené jazyky. Jaké vlastnosti by měly mít informace prezentované ve formě znalostí? Binární znakový systém. Uveďte příklady použití robotů. Jaké vlastnosti by měly mít informace prezentované ve formě zpráv? Význam znamení. Zazvoní na hodinu.

„Texty v paměti počítače“ - Počítačová abeceda. Kódovací tabulka, mezinárodní standard ASCII. Pořadí písmen v latinské abecedě je ... i, j, k, l, m, n, o .... Texty v paměti počítače. Každé písmeno je symbolem počítačové abecedy a zabírá tedy 1 bajt paměti. "Abrakadabra". ODPOVĚĎ: Počítače používají různá kódování znaků pro ruský jazyk.

V tématu je celkem 15 prezentací

Publikace na dané téma