Codifica delle tabelle dei codici delle informazioni. Codifica delle informazioni di testo in un computer

Le informazioni di testo sono costituite da simboli: lettere, numeri, segni di punteggiatura, ecc. Un byte è sufficiente per memorizzare 256 valori diversi, il che consente di inserirvi qualsiasi carattere alfanumerico. I primi 128 caratteri (che occupano i sette bit meno significativi) sono standardizzati utilizzando la codifica ASCII (American Standard Code for Information Interchange). L'essenza della codifica è che a ogni carattere viene assegnato un codice binario da 00000000 a 11111111 o un codice decimale corrispondente da 0 a 255. Per codificare le lettere russe, vengono utilizzate varie tabelle di codici (KOI-8R, CP1251, CP10007, ISO-8859- 5):

KOI8R- standard a otto bit per la codifica delle lettere dell'alfabeto cirillico (per il sistema operativo UNIX). Sviluppatori KOI8R ha posizionato i caratteri dell'alfabeto russo nella parte superiore della tabella ASCII estesa in modo che le posizioni dei caratteri cirillici corrispondano alle loro controparti fonetiche nell'alfabeto inglese nella parte inferiore della tabella. Ciò significa che dal testo scritto in KOI8R, il risultato è un testo scritto in caratteri latini. Ad esempio, le parole “casa alta” assumono la forma “dom vysokiy”;

CP1251– standard di codifica a otto bit utilizzato nel sistema operativo Windows;

CP10007- standard di codifica a otto bit utilizzato nell'alfabeto cirillico del sistema operativo Macintosh (computer Apple);

ISO-8859-5 – un codice a otto bit approvato come standard per la codifica della lingua russa.

Codifica delle informazioni grafiche

Le informazioni grafiche possono essere presentate in due forme: analogico E discreto. Tela da pittura creato dall'artista è esempio di rappresentazione analogica e l'immagine stampato utilizzando una stampante, costituito da singoli punti (elementi) di diversi colori, lo è rappresentazione discreta.

Suddividendo un'immagine grafica (campionamento), l'informazione grafica viene convertita dalla forma analogica alla forma discreta. In questo caso viene eseguita la codifica, assegnando a ciascun elemento dell'immagine grafica un valore specifico sotto forma di codice. La creazione e la memorizzazione di oggetti grafici è possibile in diversi tipi - come vettore, frattale O raster Immagini. Un elemento separato considerata grafica 3D (tridimensionale)., che combina metodi di generazione di immagini vettoriali e raster.

Grafica vettoriale utilizzato per rappresentare immagini grafiche come immagini, disegni, diagrammi.

Sono formati da oggetti: un insieme di primitive geometriche (punti, linee, cerchi, rettangoli), a cui vengono assegnate determinate caratteristiche, ad esempio spessore della linea, colore di riempimento.

Un'immagine in formato vettoriale semplifica il processo di modifica, poiché l'immagine può essere ridimensionata, ruotata e deformata senza perdite. Inoltre, ogni trasformazione distrugge la vecchia immagine (o frammento) e al suo posto ne viene costruita una nuova. Questo metodo di presentazione è utile per diagrammi e grafica aziendale. Quando si codifica un'immagine vettoriale, non viene memorizzata l'immagine dell'oggetto stesso, ma le coordinate dei punti, utilizzando il quale il programma ricrea ogni volta l'immagine.

Principale svantaggio la grafica vettoriale è incapacità di produrre immagini di qualità fotografica. In formato vettoriale, l'immagine avrà sempre l'aspetto di un disegno.

Grafica raster. Qualsiasi immagine può essere divisa in quadrati, ottenendo così raster - matrice bidimensionale piazze. Le piazze stesse - elementi raster o pixel(elemento dell'immagine) - elementi di un'immagine. Il colore di ciascun pixel è codificato con un numero, che consente di specificare l'ordine dei numeri di colore (da sinistra a destra o dall'alto in basso) per descrivere l'immagine cella in cui è memorizzato il pixel viene registrata in memoria.

Disegno in formato raster

A ogni pixel vengono assegnati valori di luminosità, colore e trasparenza o una combinazione di questi valori. Un'immagine raster ha un numero di righe e colonne. Questo metodo di archiviazione ha i suoi svantaggi: è necessaria una maggiore quantità di memoria per lavorare con le immagini.

Il volume di un'immagine raster viene determinato moltiplicando il numero di pixel per il volume di informazioni di un punto, che dipende dal numero di colori possibili. I computer moderni utilizzano principalmente le seguenti risoluzioni dello schermo: 640 per 480, 800 per 600, 1024 per 768 e 1280 per 1024 pixel. La luminosità di ciascun punto e le sue coordinate possono essere espresse utilizzando numeri interi, il che consente l'uso del codice binario per elaborare i dati grafici.

Nel caso più semplice (un'immagine in bianco e nero senza scala di grigi), ogni punto sullo schermo può avere uno dei due stati: "nero" o "bianco", ovvero è necessario 1 bit per memorizzarne lo stato. Le immagini a colori vengono generate in base al codice colore binario di ciascun pixel memorizzato nella memoria video. Le immagini a colori possono avere diverse profondità di colore, determinate dal numero di bit utilizzati per codificare il colore di un punto. Le profondità di colore più comuni sono 8, 16, 24, 32, 64 bit.

Per codificare immagini grafiche a colori, un colore arbitrario viene diviso nei suoi componenti. Vengono utilizzati i seguenti sistemi di codifica:

HSB (H - tonalità, S - saturazione, B - luminosità),

RGB (Rosso - rosso,Verde - verde, Blu- blu) E

CMYK ( C yan - blu, Magenta - viola, Giallo - giallo e Nero - nero).

Il primo sistema è conveniente per persona, il secondo - per elaborazione informatica, e l'ultimo è per tipografie. L'utilizzo di questi sistemi di colore è dovuto al fatto che il flusso luminoso può essere formato da radiazioni che sono una combinazione di colori spettrali “puri”: rosso, verde, blu o loro derivati.

Frattale è un oggetto i cui singoli elementi ereditano le proprietà delle strutture madri. Poiché una descrizione più dettagliata di elementi su scala più piccola avviene utilizzando un semplice algoritmo, un tale oggetto può essere descritto con solo poche equazioni matematiche. I frattali consentono di descrivere immagini che richiedono relativamente poca memoria per essere rappresentate in dettaglio.

Disegno in formato frattale

Grafica 3D (3D) opera con oggetti nello spazio tridimensionale. La computer grafica tridimensionale è ampiamente utilizzata nel cinema e nei giochi per computer, dove tutti gli oggetti sono rappresentati come un insieme di superfici o particelle. Tutte le trasformazioni visive nella grafica 3D vengono controllate utilizzando operatori aventi una rappresentazione matriciale.

Codifica delle informazioni audio

La musica, come ogni suono, non è altro che vibrazioni sonore che, una volta registrate, possono essere riprodotte in modo abbastanza accurato. Per rappresentare un segnale audio nella memoria del computer, è necessario rappresentare le vibrazioni acustiche ricevute in forma digitale, cioè convertirle in una sequenza di zero e uno. Utilizzando un microfono, il suono viene convertito in vibrazioni elettriche, dopodiché l'ampiezza delle vibrazioni può essere misurata a intervalli regolari (diverse decine di migliaia di volte al secondo) utilizzando un dispositivo speciale - convertitore analogico-digitale (ADC). Per riprodurre il suono, un segnale digitale deve essere convertito in analogico utilizzando convertitore digitale-analogico (DAC). Entrambi questi dispositivi sono integrati scheda audio computer. La sequenza di trasformazioni indicata è presentata in Fig. 2.6..

Trasformazione del segnale analogico in digitale e viceversa

Ogni misurazione del suono viene registrata in codice binario. Questo processo si chiama campionamento (campionamento), eseguita utilizzando un ADC.

Campione (campione inglese) è l'intervallo di tempo tra due misurazioni dell'ampiezza di un segnale analogico. Oltre a un periodo di tempo, un campione è anche chiamato qualsiasi sequenza di dati digitali ottenuta tramite la conversione da analogico a digitale. Un parametro importante campionamentoè la frequenza: il numero di misurazioni dell'ampiezza del segnale analogico al secondo. L'intervallo della frequenza di campionamento audio va da 8.000 a 48.000 misurazioni al secondo.

Rappresentazione grafica del processo di campionamento

La qualità della riproduzione viene influenzata frequenza di campionamento e risoluzione(la dimensione della cella assegnata per la registrazione del valore di ampiezza). Ad esempio, la registrazione di musica su CD utilizza valori a 16 bit e una frequenza di campionamento di 44032 Hz.

Udendo, una persona percepisce le onde sonore con una frequenza compresa tra 16 Hz e 20 kHz (1 Hz - 1 vibrazione al secondo).

Nel formato CD Audio DVD il segnale viene misurato 96.000 volte in un secondo, ovvero Viene utilizzata una frequenza di campionamento di 96 kHz. Per risparmiare spazio sul disco rigido nelle applicazioni multimediali, vengono spesso utilizzate frequenze più basse: 11, 22, 32 kHz. Ciò porta ad una diminuzione della gamma di frequenze udibili, il che significa che ciò che si sente è distorto.

Viene chiamato l'insieme di caratteri con cui viene scritto il testo alfabeto.

Il numero di caratteri dell'alfabeto è il suo energia.

Formula per determinare la quantità di informazioni: N=2b,

dove N è la potenza dell'alfabeto (numero di caratteri),

b – numero di bit (peso informativo del simbolo).

L'alfabeto con una capacità di 256 caratteri può contenere quasi tutti i caratteri necessari. Questo alfabeto si chiama sufficiente.

Perché 256 = 2 8, quindi il peso di 1 carattere è 8 bit.

All'unità di misura 8 bit è stato dato il nome 1 byte:

1 byte = 8 bit.

Il codice binario di ciascun carattere nel testo del computer occupa 1 byte di memoria.

Come vengono rappresentate le informazioni testuali nella memoria del computer?

La comodità della codifica dei caratteri byte per byte è ovvia perché un byte è la più piccola parte indirizzabile della memoria e, pertanto, il processore può accedere a ciascun carattere separatamente durante l'elaborazione del testo. D'altra parte, 256 caratteri sono un numero abbastanza sufficiente per rappresentare un'ampia varietà di informazioni simboliche.

Ora sorge la domanda: quale codice binario a otto bit assegnare a ciascun carattere.

È chiaro che questa è una questione condizionale; puoi trovare molti metodi di codifica.

Tutti i caratteri dell'alfabeto del computer sono numerati da 0 a 255. Ogni numero corrisponde a un codice binario a otto bit da 00000000 a 11111111. Questo codice è semplicemente il numero di serie del carattere nel sistema di numerazione binario.

Una tabella in cui a tutti i caratteri dell'alfabeto del computer vengono assegnati numeri di serie è chiamata tabella di codifica.

Per tipi diversi I computer utilizzano tabelle di codifica diverse.

Il tavolo è diventato lo standard internazionale per i PC ASCII(leggi aski) (Codice standard americano per lo scambio di informazioni).

La tabella dei codici ASCII è divisa in due parti.

Solo la prima metà della tabella corrisponde allo standard internazionale, vale a dire simboli con numeri da 0 (00000000), fino a 127 (01111111).

Struttura della tabella di codifica ASCII

Numero di serie

Codice

Simbolo

0 - 31

00000000 - 00011111

I simboli con numeri da 0 a 31 sono solitamente chiamati simboli di controllo.
La loro funzione è controllare il processo di visualizzazione del testo sullo schermo o di stampa, l'emissione di un segnale acustico, la marcatura del testo, ecc.

32 - 127

00100000 - 01111111

Parte standard della tabella (inglese). Ciò include lettere minuscole e maiuscole dell'alfabeto latino, numeri decimali, segni di punteggiatura, tutti i tipi di parentesi, simboli commerciali e di altro tipo.
Il carattere 32 è uno spazio, cioè posizione vuota nel testo.
Tutti gli altri si riflettono in determinati segni.

128 - 255

10000000 - 11111111

Parte alternativa del tavolo (russo).
La seconda metà della tabella dei codici ASCII, chiamata tabella codici (128 codici, a partire da 10000000 e termina con 11111111), può avere diverse opzioni, ciascuna opzione ha il proprio numero.
La tabella codici viene utilizzata principalmente per accogliere alfabeti nazionali diversi dal latino. Nelle codifiche nazionali russe, i caratteri dell'alfabeto russo vengono inseriti in questa parte della tabella.

Prima metà della tabella dei codici ASCII


Tieni presente che nella tabella di codifica, le lettere (maiuscole e minuscole) sono disposte in ordine alfabetico e i numeri sono ordinati in ordine crescente. Questa osservanza dell'ordine lessicografico nella disposizione dei simboli è chiamata principio della codifica sequenziale dell'alfabeto.

Per le lettere dell'alfabeto russo si osserva anche il principio della codifica sequenziale.

Seconda metà della tabella dei codici ASCII


Sfortunatamente, attualmente esistono cinque diverse codifiche cirilliche (KOI8-R, Windows, MS-DOS, Macintosh e ISO). Per questo motivo, spesso sorgono problemi con il trasferimento del testo russo da un computer all'altro, da uno sistema software ad un altro.

Cronologicamente, uno dei primi standard per la codifica delle lettere russe sui computer è stato KOI8 ("Codice di scambio di informazioni, 8 bit"). Questa codifica è stata utilizzata negli anni '70 sui computer della serie ES e dalla metà degli anni '80 ha iniziato ad essere utilizzata nelle prime versioni russificate del sistema operativo UNIX.

Dall'inizio degli anni '90, epoca in cui prevaleva il sistema operativo MS DOS, rimane la codifica CP866 ("CP" significa "Code Page", "code page").

I computer Apple che eseguono il sistema operativo Mac OS utilizzano la propria codifica Mac.

Inoltre, l'Organizzazione internazionale per la standardizzazione (ISO) ha approvato un'altra codifica denominata ISO 8859-5 come standard per la lingua russa.

La codifica più comune attualmente utilizzata è Microsoft Windows, abbreviato CP1251.

Dalla fine degli anni '90 il problema della standardizzazione della codifica dei caratteri è stato risolto con l'introduzione di un nuovo standard internazionale denominato Unicode. Questa è una codifica a 16 bit, ad es. alloca 2 byte di memoria per ogni carattere. Naturalmente, ciò aumenta la quantità di memoria occupata di 2 volte. Ma una tabella di codici di questo tipo consente di includere fino a 65536 caratteri. La specifica completa dello standard Unicode comprende tutti gli alfabeti esistenti, estinti e creati artificialmente nel mondo, nonché molti simboli matematici, musicali, chimici e altri.

Proviamo a utilizzare una tabella ASCII per immaginare come appariranno le parole nella memoria del computer.

Rappresentazione interna delle parole nella memoria del computer

A volte capita che un testo composto da lettere dell'alfabeto russo ricevuto da un altro computer non possa essere letto: sullo schermo del monitor è visibile una sorta di "abracadabra". Ciò accade perché i computer utilizzano codifiche di caratteri diverse per la lingua russa.

La codifica delle informazioni di testo in un computer è talvolta una condizione essenziale per il corretto funzionamento di un dispositivo o per la visualizzazione di un particolare frammento. Come avviene questo processo durante il funzionamento di un computer con testo e informazioni visive, suoni: analizzeremo tutto questo in questo articolo.

introduzione

Computer elettronico (che noi Vita di ogni giorno Lo chiamiamo computer) percepisce il testo in un modo molto specifico. Per lei la codifica delle informazioni testuali è molto importante, poiché percepisce ogni frammento di testo come un gruppo di simboli isolati gli uni dagli altri.

Quali sono i simboli?

Come simboli per un computer non sono solo le lettere russe, inglesi e altre, ma anche i segni di punteggiatura e altri caratteri. Anche lo spazio che utilizziamo per separare le parole quando digitiamo su un computer viene percepito dal dispositivo come un simbolo. Per certi versi ricorda molto la matematica superiore, perché lì, secondo molti professori, lo zero ha un doppio significato: è allo stesso tempo un numero e allo stesso tempo non significa nulla. Anche per i filosofi la questione dello spazio bianco può essere una questione urgente. Uno scherzo, ovviamente, ma, come si suol dire, in ogni battuta c'è del vero.

Che tipo di informazioni ci sono?

Quindi, per percepire le informazioni, il computer deve avviare processi di elaborazione. Che tipo di informazioni ci sono comunque? L'argomento di questo articolo è la codifica delle informazioni testuali. Presteremo particolare attenzione a questo compito, ma tratteremo anche altri micro-temi.

Le informazioni possono essere testuali, numeriche, audio, grafiche. Il computer deve eseguire processi che codificano informazioni testuali per visualizzare sullo schermo ciò che, ad esempio, digitiamo su una tastiera. Vedremo simboli e lettere, questo è comprensibile. Cosa vede la macchina? Percepisce assolutamente tutte le informazioni - e ora non stiamo parlando solo di testo - come una certa sequenza di zero e uno. Costituiscono la base del cosiddetto codice binario. Di conseguenza, il processo che converte le informazioni ricevute dal dispositivo in qualcosa che può comprendere è chiamato “codifica binaria delle informazioni di testo”.

Breve principio di funzionamento del codice binario

Perché la codifica binaria delle informazioni è più diffusa nelle macchine elettroniche? La base del testo, codificata utilizzando zeri e uno, può essere assolutamente qualsiasi sequenza di simboli e segni. Tuttavia, questo non è l'unico vantaggio offerto dalla codifica binaria del testo delle informazioni. Il fatto è che il principio su cui si basa questo metodo di codifica è molto semplice, ma allo stesso tempo abbastanza funzionale. Quando c'è un impulso elettrico, viene contrassegnato (condizionatamente, ovviamente) con un'unità. Non c'è impulso - contrassegnato con zero. Cioè, la codifica testuale delle informazioni si basa sul principio della costruzione di una sequenza di impulsi elettrici. Una sequenza logica composta da simboli di codice binario è chiamata linguaggio macchina. Allo stesso tempo, la codifica e l'elaborazione delle informazioni testuali mediante codice binario consente di eseguire operazioni in un periodo di tempo abbastanza breve.

Bit e byte

Un numero percepito da una macchina contiene una certa quantità di informazioni. È uguale a un bit. Questo vale per tutti gli zeri che compongono l'una o l'altra sequenza di informazioni crittografate.

Di conseguenza, la quantità di informazioni in ogni caso può essere determinata semplicemente conoscendo il numero di caratteri nella sequenza del codice binario. Saranno numericamente uguali tra loro. 2 cifre nel codice trasportano 2 bit di informazione, 10 cifre - 10 bit e così via. Il principio per determinare la quantità di informazioni che si trova in un particolare frammento di codice binario è abbastanza semplice, come puoi vedere.

Codifica delle informazioni di testo in un computer

In questo momento stai leggendo un articolo che consiste in una sequenza, come crediamo, di lettere dell'alfabeto russo. E il computer, come accennato in precedenza, percepisce tutte le informazioni (e anche in questo caso) come una sequenza non di lettere, ma di zeri e uno, che indicano l'assenza e la presenza di un impulso elettrico.

Il fatto è che puoi codificare un carattere che vediamo sullo schermo utilizzando un'unità di misura convenzionale chiamata byte. Come scritto sopra, il codice binario ha un cosiddetto carico di informazioni. Ricordiamo che numericamente è uguale al numero totale di zeri e uno nel frammento di codice selezionato. Quindi, 8 bit formano 1 byte. Le combinazioni dei segnali possono essere molto diverse, come si può facilmente constatare disegnando su un foglio di carta un rettangolo composto da 8 celle di uguale dimensione.

Risulta che le informazioni di testo possono essere codificate utilizzando un alfabeto con una capacità di 256 caratteri. Qual e il punto? Il significato sta nel fatto che ogni carattere avrà il proprio codice binario. Le combinazioni "legate" a determinati caratteri iniziano con 00000000 e terminano con 11111111. Se si passa dal sistema numerico binario a quello decimale, è possibile codificare le informazioni in tale sistema da 0 a 255.

Non dimenticare che ora ci sono varie tabelle che utilizzano la codifica delle lettere dell'alfabeto russo. Questi sono, ad esempio, ISO e KOI-8, Mac e CP in due varianti: 1251 e 866. È facile assicurarsi che il testo codificato in una di queste tabelle non verrà visualizzato correttamente in una codifica diversa da questa. Ciò è dovuto al fatto che in tabelle diverse caratteri diversi corrispondono allo stesso codice binario.

All'inizio questo era un problema. Tuttavia, oggigiorno i programmi dispongono già di algoritmi speciali integrati che convertono il testo, riportandolo nella forma corretta. Il 1997 è stato segnato dalla creazione di una codifica chiamata Unicode. In esso ogni carattere ha 2 byte a sua disposizione. Ciò consente di codificare il testo con un numero molto maggiore di caratteri. 256 e 65536: c'è differenza?

Codifica grafica

La codifica del testo e delle informazioni grafiche presenta alcune somiglianze. Come sapete, viene utilizzato per visualizzare informazioni grafiche unità periferica computer chiamato monitor. Oggi la grafica (stiamo parlando di computer grafica) è ampiamente utilizzata in svariati campi. Fortunatamente, le capacità hardware computer personale consentono di risolvere problemi grafici piuttosto complessi.

L'elaborazione delle informazioni video è diventata possibile negli ultimi anni. Ma il testo è molto “più leggero” della grafica, il che, in linea di principio, è comprensibile. Per questo motivo è necessario aumentare la dimensione finale dei file grafici. Tali problemi possono essere superati conoscendo l'essenza in cui vengono presentate le informazioni grafiche.

Vediamo innanzitutto in quali gruppi è suddiviso questo tipo di informazioni. Innanzitutto, è raster. In secondo luogo, vettore.

Le immagini raster sono abbastanza simili alla carta a scacchi. Ogni cella su tale carta è dipinta con un colore o un altro. Questo principio ricorda in qualche modo un mosaico. Cioè, risulta che nella grafica raster l'immagine è divisa in parti elementari separate. Si chiamano pixel. Tradotto in russo, i pixel significano "punti". È logico che i pixel siano ordinati rispetto alle linee. La griglia grafica è composta solo da un certo numero di pixel. È anche chiamato raster. Considerando queste due definizioni, possiamo dire che un'immagine raster non è altro che un insieme di pixel visualizzati su una griglia rettangolare.

Il raster del monitor e le dimensioni dei pixel influiscono sulla qualità dell'immagine. Più grande è il raster del monitor, più alto sarà. Le dimensioni raster rappresentano la risoluzione dello schermo, di cui probabilmente ogni utente ha sentito parlare. Una delle caratteristiche più importanti degli schermi dei computer è la risoluzione, non solo la risoluzione. Mostra quanti pixel ci sono per unità di lunghezza. In genere, la risoluzione del monitor viene misurata in pixel per pollice. Maggiore è il numero di pixel per unità di lunghezza, maggiore sarà la qualità, poiché la “grana” viene ridotta.

Elaborazione del flusso audio

La codifica delle informazioni di testo e audio, come altri tipi di codifica, presenta alcune funzionalità. Parliamo ora di ultimo processo: codifica delle informazioni audio.

La rappresentazione di un flusso audio (così come di un singolo suono) può essere prodotta utilizzando due metodi.

Forma analogica di rappresentazione delle informazioni audio

In questo caso, il valore può effettivamente assumere grande quantità significati diversi. Inoltre, questi stessi valori non rimangono costanti: cambiano molto rapidamente, e questo processo è continuo.

Forma discreta di rappresentazione delle informazioni audio

Se parliamo del metodo discreto, in questo caso la quantità può assumere solo un numero limitato di valori. In questo caso il cambiamento avviene in modo spasmodico. Puoi codificare discretamente non solo l'audio, ma anche informazioni grafiche. Per quanto riguarda la forma analogica, comunque.

Le informazioni audio analogiche vengono memorizzate, ad esempio, sui dischi in vinile. Ma il CD è già un modo discreto di presentare le informazioni audio.

All'inizio abbiamo parlato del fatto che il computer percepisce tutte le informazioni in linguaggio macchina. Per fare ciò, le informazioni vengono codificate sotto forma di una sequenza di impulsi elettrici: zero e uno. La codifica delle informazioni audio non fa eccezione a questa regola. Per elaborare il suono su un computer, devi prima trasformarlo proprio in quella sequenza. Solo dopo è possibile eseguire operazioni su un flusso o su un singolo suono.

Quando avviene il processo di codifica, il flusso è soggetto al campionamento temporale. L'onda sonora è continua; si sviluppa in piccoli periodi di tempo. Il valore dell'ampiezza viene impostato separatamente per ciascun intervallo specifico.

Conclusione

Allora, cosa abbiamo scoperto durante questo articolo? Innanzitutto, tutte le informazioni visualizzate sul monitor di un computer vengono codificate prima di apparire lì. In secondo luogo, questa codifica implica la traduzione delle informazioni in linguaggio macchina. In terzo luogo, il linguaggio macchina non è altro che una sequenza di impulsi elettrici: zero e uno. In quarto luogo, esistono tabelle separate per la codifica di caratteri diversi. E, in quinto luogo, le informazioni grafiche e sonore possono essere presentate in forma analogica e discreta. Ecco, forse, i punti principali di cui abbiamo discusso. Una delle discipline studiate quest'area, è l'informatica. La codifica delle informazioni testuali e le sue nozioni di base vengono spiegate a scuola, poiché non c'è nulla di complicato in questo.

Contenuti

I. Storia della codificazione dell'informazione……………..3

II. Codificazione delle informazioni................................................4

III. Codificazione delle informazioni testuali…………….4

IV. Tipi di tabelle di codifica…………………...6

V. Calcolo della quantità di informazioni testuali……………14

Elenco dei riferimenti……………..16

IO . Storia della codificazione dell'informazione

L'umanità ha utilizzato la crittografia (codifica) del testo sin dal momento in cui sono apparse le prime informazioni segrete. Ecco diverse tecniche di codifica del testo inventate in varie fasi dello sviluppo del pensiero umano:

La crittografia è la scrittura segreta, un sistema di modifica della scrittura in modo da rendere il testo incomprensibile ai non iniziati;

Codice Morse o codice telegrafico irregolare, in cui ogni lettera o segno è rappresentato dalla propria combinazione di chip corti corrente elettrica(punti) e pacchi elementari di durata tripla (trattino);

I gesti caratteristici sono un linguaggio dei segni utilizzato da persone con problemi di udito.

Uno dei primi metodi di crittografia conosciuti prende il nome dall'imperatore romano Giulio Cesare (I secolo a.C.). Questo metodo si basa sulla sostituzione di ciascuna lettera del testo crittografato con un'altra, spostando l'alfabeto dalla lettera originale di un numero fisso di caratteri, e l'alfabeto viene letto in cerchio, cioè dopo la lettera i viene considerata a . Quindi la parola "byte", quando spostata di due caratteri a destra, viene codificata come la parola "gwlf". Il processo inverso di decifrazione di una determinata parola è necessario per sostituire ciascuna lettera crittografata con la seconda a sinistra di essa.

II. Codifica delle informazioni

Il codice è un insieme simboli(o segnali) per registrare (o trasmettere) alcuni concetti predefiniti.

La codifica delle informazioni è il processo di formazione di una rappresentazione specifica delle informazioni. In un senso più stretto, il termine “codifica” è spesso inteso come una transizione da una forma di rappresentazione delle informazioni a un'altra, più conveniente per l'archiviazione, la trasmissione o l'elaborazione.

Di solito, ciascuna immagine durante la codifica (a volte chiamata crittografia) è rappresentata da un segno separato.

Un segno è un elemento di un insieme finito di elementi distinti tra loro.

In un senso più stretto, il termine “codifica” è spesso inteso come una transizione da una forma di rappresentazione delle informazioni a un'altra, più conveniente per l'archiviazione, la trasmissione o l'elaborazione.

È possibile elaborare informazioni di testo su un computer. Quando viene inserita in un computer, ogni lettera viene codificata con un certo numero e quando viene inviata a dispositivi esterni (schermo o stampa), le immagini delle lettere vengono costruite da questi numeri per la percezione umana. La corrispondenza tra un insieme di lettere e numeri è chiamata codifica dei caratteri.

Di norma, tutti i numeri in un computer sono rappresentati utilizzando zeri e uno (non dieci cifre, come al solito per le persone). In altre parole, i computer funzionano solitamente nel sistema numerico binario, poiché ciò rende i dispositivi per elaborarli molto più semplici. L'immissione di numeri in un computer e la loro riproduzione per la lettura umana può essere eseguita nella consueta forma decimale e tutte le conversioni necessarie vengono eseguite dai programmi in esecuzione sul computer.

III. Codifica delle informazioni di testo

La stessa informazione può essere presentata (codificata) in diverse forme. Con l'avvento dei computer, è nata la necessità di codificare tutti i tipi di informazioni con cui hanno a che fare sia l'individuo che l'umanità nel suo insieme. Ma l'umanità ha iniziato a risolvere il problema della codifica delle informazioni molto prima dell'avvento dei computer. Le grandiose conquiste dell'umanità - la scrittura e l'aritmetica - non sono altro che un sistema per codificare la parola e le informazioni numeriche. L'informazione non appare mai nella sua forma pura, è sempre presentata in qualche modo, codificata in qualche modo.

La codifica binaria è uno dei modi più comuni di rappresentare le informazioni. IN computer Nei robot e nelle macchine utensili CNC, in genere tutte le informazioni trattate dal dispositivo sono codificate come parole dell'alfabeto binario.

Dalla fine degli anni '60, i computer sono stati sempre più utilizzati per elaborare informazioni di testo e attualmente la maggior parte dei personal computer nel mondo (e la maggior parte del tempo) è occupata dall'elaborazione di informazioni di testo. Tutti questi tipi di informazioni in un computer sono presentati in codice binario, ovvero viene utilizzato un alfabeto di potenza due (solo due caratteri 0 e 1). Ciò è dovuto al fatto che è conveniente rappresentare l'informazione sotto forma di una sequenza di impulsi elettrici: non c'è nessun impulso (0), c'è un impulso (1).

Tale codifica è solitamente chiamata binaria e le sequenze logiche di zero e uno sono chiamate linguaggio macchina.

Dal punto di vista del computer, il testo è costituito da singoli caratteri. I simboli includono non solo lettere (maiuscole o minuscole, latine o russe), ma anche numeri, segni di punteggiatura, caratteri speciali come "=", "(", "&", ecc., e persino (prestare particolare attenzione!) spazi tra le parole.

I testi vengono inseriti nella memoria del computer utilizzando la tastiera. Sui tasti sono scritti le lettere, i numeri, i segni di punteggiatura e altri simboli a noi familiari. Inseriscono la RAM in codice binario. Ciò significa che ogni carattere è rappresentato da un codice binario a 8 bit.

Tradizionalmente, per codificare un carattere, viene utilizzata una quantità di informazioni pari a 1 byte, ovvero I = 1 byte = 8 bit. Utilizzando una formula che collega il numero di eventi possibili K e la quantità di informazioni I, puoi calcolare quanti simboli diversi possono essere codificati (assumendo che i simboli siano eventi possibili): K = 2 I = 2 8 = 256, cioè per A rappresentano informazioni di testo, è possibile utilizzare un alfabeto con una capacità di 256 caratteri.

Questo numero di caratteri è abbastanza sufficiente per rappresentare informazioni di testo, comprese lettere maiuscole e minuscole dell'alfabeto russo e latino, numeri, segni, simboli grafici, ecc.

La codifica consiste nell'assegnare a ciascun carattere un codice decimale univoco da 0 a 255 o un codice binario corrispondente da 00000000 a 11111111. Pertanto, una persona distingue i caratteri dal loro contorno e un computer dal loro codice.

La comodità della codifica dei caratteri byte per byte è ovvia perché un byte è la più piccola parte indirizzabile della memoria e, pertanto, il processore può accedere a ciascun carattere separatamente durante l'elaborazione del testo. D'altra parte, 256 caratteri sono un numero abbastanza sufficiente per rappresentare un'ampia varietà di informazioni simboliche.

Nel processo di visualizzazione di un simbolo sullo schermo di un computer, viene eseguito il processo inverso: decodifica, ovvero conversione del codice del simbolo nella sua immagine. È importante che l'assegnazione di un codice specifico a un simbolo sia una questione di accordo, che viene registrata nella tabella dei codici.

Ora sorge la domanda: quale codice binario a otto bit assegnare a ciascun carattere. È chiaro che questa è una questione condizionale; puoi trovare molti metodi di codifica.

Tutti i caratteri dell'alfabeto del computer sono numerati da 0 a 255. Ogni numero corrisponde a un codice binario a otto bit da 00000000 a 11111111. Questo codice è semplicemente il numero di serie del carattere nel sistema di numerazione binario.

IV . Tipi di tabelle di codifica

Una tabella in cui a tutti i caratteri dell'alfabeto del computer vengono assegnati numeri di serie è chiamata tabella di codifica.

Diversi tipi di computer utilizzano tabelle di codifica diverse.

La tabella dei codici ASCII (American Standard Code for Information Interchange) è stata adottata come standard internazionale, codificando la prima metà dei caratteri con codici numerici da 0 a 127 (i codici da 0 a 32 sono assegnati non ai caratteri, ma ai tasti funzione) .

La tabella dei codici ASCII è divisa in due parti.

Solo la prima metà della tabella corrisponde allo standard internazionale, vale a dire caratteri con numeri da 0 (00000000), a 127 (01111111).

Struttura della tabella di codifica ASCII

Numero di serie Codice Simbolo
0 - 31 00000000 - 00011111

I simboli con numeri da 0 a 31 sono solitamente chiamati simboli di controllo.

La loro funzione è controllare il processo di visualizzazione del testo sullo schermo o di stampa, l'emissione di un segnale acustico, la marcatura del testo, ecc.

32 - 127 0100000 - 01111111

Parte standard della tabella (inglese). Ciò include lettere minuscole e maiuscole dell'alfabeto latino, numeri decimali, segni di punteggiatura, tutti i tipi di parentesi, simboli commerciali e di altro tipo.

Il carattere 32 è uno spazio, cioè posizione vuota nel testo.

Tutti gli altri si riflettono in determinati segni.

128 - 255 10000000 - 11111111

Parte alternativa del tavolo (russo).

La seconda metà della tabella dei codici ASCII, chiamata tabella codici (128 codici, a partire da 10000000 e termina con 11111111), può avere diverse opzioni, ciascuna opzione ha il proprio numero.

La tabella codici viene utilizzata principalmente per accogliere alfabeti nazionali diversi dal latino. Nelle codifiche nazionali russe, i caratteri dell'alfabeto russo vengono inseriti in questa parte della tabella.

Prima metà della tabella dei codici ASCII

Tieni presente che nella tabella di codifica, le lettere (maiuscole e minuscole) sono disposte in ordine alfabetico e i numeri sono ordinati in ordine crescente. Questa osservanza dell'ordine lessicografico nella disposizione dei simboli è chiamata principio della codifica sequenziale dell'alfabeto.

Per le lettere dell'alfabeto russo si osserva anche il principio della codifica sequenziale.

Seconda metà della tabella dei codici ASCII

Sfortunatamente, attualmente esistono cinque diverse codifiche cirilliche (KOI8-R, Windows, MS-DOS, Macintosh e ISO). Per questo motivo, spesso sorgono problemi con il trasferimento del testo russo da un computer all'altro, da un sistema software all'altro.

Cronologicamente, uno dei primi standard per la codifica delle lettere russe sui computer è stato KOI8 ("Codice di scambio di informazioni, 8 bit"). Questa codifica è stata utilizzata negli anni '70 sui computer della serie ES e dalla metà degli anni '80 ha iniziato ad essere utilizzata nelle prime versioni russificate del sistema operativo UNIX.

Dall'inizio degli anni '90, epoca in cui prevaleva il sistema operativo MS DOS, rimane la codifica CP866 ("CP" significa "Code Page", "code page").

I computer Apple che eseguono il sistema operativo Mac OS utilizzano la propria codifica Mac.

Inoltre, l'Organizzazione internazionale per la standardizzazione (ISO) ha approvato un'altra codifica denominata ISO 8859-5 come standard per la lingua russa.

La codifica più comune attualmente utilizzata è Microsoft Windows, abbreviata CP1251. Introdotto da Microsoft; vista la diffusione sistemi operativi(OS) e altri prodotti software di questa azienda nella Federazione Russa, hanno trovato un'ampia distribuzione.

Dalla fine degli anni '90, il problema della standardizzazione della codifica dei caratteri è stato risolto con l'introduzione di un nuovo standard internazionale chiamato Unicode.

Questa è una codifica a 16 bit, ad es. alloca 2 byte di memoria per ogni carattere. Naturalmente, ciò aumenta la quantità di memoria occupata di 2 volte. Ma una tabella di codici di questo tipo consente di includere fino a 65536 caratteri. La specifica completa dello standard Unicode comprende tutti gli alfabeti esistenti, estinti e creati artificialmente nel mondo, nonché molti simboli matematici, musicali, chimici e altri.

Rappresentazione interna delle parole nella memoria del computer

utilizzando una tabella ASCII

A volte capita che un testo composto da lettere dell'alfabeto russo ricevuto da un altro computer non possa essere letto: sullo schermo del monitor è visibile una sorta di "abracadabra". Ciò accade perché i computer utilizzano codifiche di caratteri diverse per la lingua russa.

Pertanto, ciascuna codifica è specificata dalla propria tabella di codici. Come si può vedere dalla tabella, allo stesso codice binario vengono assegnati caratteri diversi in codifiche diverse.

Ad esempio, la sequenza dei codici numerici 221, 194, 204 nella codifica CP1251 forma la parola "computer", mentre in altre codifiche sarà un insieme di caratteri senza significato.

Fortunatamente, nella maggior parte dei casi l'utente non deve preoccuparsi della transcodifica dei documenti di testo, poiché questa viene eseguita da speciali programmi di conversione integrati nelle applicazioni.

V . Calcolo della quantità di informazioni di testo

Compito 1: Codifica la parola “Roma” utilizzando le tabelle di codifica KOI8-R e CP1251.

Soluzione:

Compito 2: Supponendo che ogni carattere sia codificato in un byte, stimare il volume di informazioni della seguente frase:

“Mio zio ha le regole più oneste,

Quando mi ammalai gravemente,

Si costrinse al rispetto

E non potevo pensare a niente di meglio.”

Soluzione: Questa frase ha 108 caratteri, inclusi punteggiatura, virgolette e spazi. Moltiplichiamo questo numero per 8 bit. Otteniamo 108*8=864 bit.

Compito 3: I due testi contengono lo stesso numero di caratteri. Il primo testo è scritto in russo e il secondo nella lingua della tribù Naguri, il cui alfabeto è composto da 16 caratteri. Quale testo contiene più informazioni?

Soluzione:

1) I = K * a (il volume delle informazioni del testo è uguale al prodotto del numero di caratteri e del peso delle informazioni di un carattere).

2) Perché Entrambi i testi hanno lo stesso numero di caratteri (K), quindi la differenza dipende dal contenuto informativo di un carattere dell'alfabeto (a).

3) 2 a1 = 32, cioè a 1 = 5 bit, 2 a2 = 16, cioè e 2 = 4 bit.

4) I 1 = K * 5 bit, I 2 = K * 4 bit.

5) Ciò significa che il testo scritto in russo porta 5/4 volte più informazioni.

Compito 4: La dimensione del messaggio, contenente 2048 caratteri, era 1/512 di MB. Determinare il potere dell'alfabeto.

Soluzione:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 bit - ha convertito il volume di informazioni del messaggio in bit.

2) a = I / K = 16384 /1024 = 16 bit - rappresenta un carattere dell'alfabeto.

3) 2*16*2048 = 65536 caratteri – la potenza dell'alfabeto utilizzato.

Compito 5: Stampante laser Canon LBP stampa a una velocità media di 6,3 Kbps. Quanto tempo ci vorrà per stampare un documento di 8 pagine, se sai che una pagina ha una media di 45 righe e 70 caratteri per riga (1 carattere - 1 byte)?

Soluzione:

1) Trova la quantità di informazioni contenute in 1 pagina: 45 * 70 * 8 bit = 25200 bit

2) Trova la quantità di informazioni su 8 pagine: 25200 * 8 = 201600 bit

3) Riduciamo a unità di misura comuni. Per fare ciò, convertiamo i Mbit in bit: 6,3*1024=6451,2 bit/sec.

4) Trova il tempo di stampa: 201600: 6451.2 =31 secondi.

Bibliografia

1. Ageev V.M. Teoria dell'informazione e della codifica: campionamento e codifica delle informazioni di misura. - M.: MAI, 1977.

2. Kuzmin I.V., Kedrus V.A. Fondamenti di teoria dell'informazione e codifica. - Kiev, scuola Vishcha, 1986.

3. I metodi più semplici di cifratura del testo / D.M. Zlatopolsky. – M.: Chistye Prudy, 2007 – 32 p.

4. Ugrinovic N.D. Informatica e tecnologie dell'informazione. Libro di testo per i gradi 10-11 / N.D. Ugrinovich. – M.: BINOM. Laboratorio della Conoscenza, 2003. – 512 p.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n

Principio della codifica alfabetica sequenziale: nella tabella di codifica, le lettere (maiuscole e minuscole) sono disposte in ordine alfabetico e i numeri sono ordinati in ordine crescente di valore.

Immagine 8 dalla presentazione “Testi in memoria del computer» per lezioni di informatica sull’argomento “Testo”

Dimensioni: 960 x 720 pixel, formato: jpg. Per scaricare un'immagine gratuita per una lezione di informatica, fare clic con il tasto destro del mouse sull'immagine e fare clic su "Salva immagine con nome...". Per esporre le foto in classe, puoi anche scaricare gratuitamente l'intera presentazione “Testi nella memoria del computer.ppsx” con tutte le foto in un archivio zip. La dimensione dell'archivio è 89 KB.

Scarica la presentazione

Testo

“Determinazione della quantità di informazioni” - N=2I. Non materia e non energia...? Quantità di informazioni. Informazione. Come posso misurare la quantità di informazioni ricevute? Obiettivi Studiare metodi per determinare la quantità di informazioni: quantitative; alfabetico. Misuriamo... Non sorprenderti, le informazioni possono essere misurate quantitativamente. Approccio alfabetico per determinare la quantità di informazioni.

"Codifica in informatica" - Tabella dei codici ASCII per la Russia. Riguardo a cosa? dove è conservato? come è codificato? Codificazione dell'informazione in informatica e biologia. Struttura del DNA. Gene. Piano della lezione: L'essenza del coding. Autori del modello spaziale del DNA. Compiti a casa: tabella comparativa. Triplice Unicità Degenerazione Universalità Non sovrapposta.

"Codifica delle informazioni di testo" - Nel documento verrà visualizzato il simbolo "a". Determinazione del codice numerico di un carattere. Il codice del simbolo è memorizzato in memoria ad accesso casuale computer, dove occupa 1 byte. 1. Avvia il programma Blocco note standard. Immettere il comando [Inserisci simbolo...]. Immissione di caratteri tramite codice numerico. Sullo schermo verrà visualizzata la finestra di dialogo Simbolo. Codificazione delle informazioni testuali.

"Rappresentazione dei numeri nella memoria del computer" - Rappresentazione di un numero intero. (2). Argomento della lezione: piccola portata. 31.0 cifre. Memoria. -25. 111111112= =1*27 + 1*26 + 1*25 + 1*24 + 1*23 + 1*22 + 1*21 + 1*20=25510. (10). Rappresentazione informatica degli interi. Spiegare la necessità di utilizzare tipi di dati interi. Formati dei dati.

“Sistemi di segni per la codifica delle informazioni” - Codifica delle informazioni utilizzando sistemi di segni. Lingue naturali. Quali dovrebbero essere le proprietà delle informazioni presentate sotto forma di conoscenza? Sistema di segni binari. Fornire esempi di utilizzo dei robot. Quali dovrebbero essere le proprietà delle informazioni presentate sotto forma di messaggi? Il significato dei segni. Suona la campanella per la lezione.

"Testi nella memoria del computer" - Alfabeto del computer. Tabella di codifica, standard internazionale ASCII. L'ordine delle lettere nell'alfabeto latino è... i, j, k, l, m, n, o.... Testi nella memoria del computer. Ogni lettera è un simbolo dell'alfabeto del computer e quindi occupa 1 byte di memoria. "Abracadabra". RISPOSTA: I PC utilizzano codifiche di caratteri diverse per la lingua russa.

Ci sono un totale di 15 presentazioni nell'argomento

Pubblicazioni sull'argomento