Codificación de tablas de códigos de información. Codificar información de texto en una computadora.

La información del texto consta de símbolos: letras, números, signos de puntuación, etc. Un byte es suficiente para almacenar 256 valores diferentes, lo que le permite colocar cualquiera de los caracteres alfanuméricos en él. Los primeros 128 caracteres (que ocupan los siete bits menos significativos) están estandarizados utilizando la codificación ASCII (Código estándar americano para el intercambio de información). La esencia de la codificación es que a cada carácter se le asigna un código binario de 00000000 a 11111111 o un código decimal correspondiente de 0 a 255. Para codificar letras rusas, se utilizan varias tablas de códigos (KOI-8R, CP1251, CP10007, ISO-8859- 5):

KOI8R- estándar de ocho bits para codificar letras del alfabeto cirílico (para el sistema operativo UNIX). Desarrolladores KOI8R colocó los caracteres del alfabeto ruso en la parte superior de la tabla ASCII extendida para que las posiciones de los caracteres cirílicos correspondan a sus contrapartes fonéticas en el alfabeto inglés en la parte inferior de la tabla. Esto significa que del texto escrito en KOI8R, el resultado es un texto escrito en caracteres latinos. Por ejemplo, las palabras “casa alta” toman la forma “dom vysokiy”;

CP1251– estándar de codificación de ocho bits utilizado en el sistema operativo Windows;

CP10007- estándar de codificación de ocho bits utilizado en el alfabeto cirílico del sistema operativo Macintosh (ordenadores Apple);

YO ASI-8859-5 – un código de ocho bits aprobado como estándar para codificar el idioma ruso.

Codificación de información gráfica.

La información gráfica se puede presentar de dos formas: cosa análoga Y discreto. Lienzo de pintura creado por el artista es ejemplo de representación analógica y la imagen impreso usando una impresora, que consta de (elementos) puntos individuales de diferentes colores, es representación discreta.

Al dividir una imagen gráfica (muestreo), la información gráfica se convierte de forma analógica a forma discreta. En este caso, se realiza la codificación: asignando un valor específico en forma de código a cada elemento de la imagen gráfica. La creación y almacenamiento de objetos gráficos es posible en varios tipos, como vector, fractal o trama Imágenes. Un artículo separado considerados gráficos 3D (tridimensionales), que combina métodos de generación de imágenes vectoriales y rasterizadas.

Gráficos vectoriales Se utiliza para representar imágenes gráficas como fotografías, dibujos, diagramas.

Se forman a partir de objetos: un conjunto de primitivas geométricas (puntos, líneas, círculos, rectángulos), a los que se les asignan ciertas características, por ejemplo, grosor de línea, color de relleno.

Una imagen en formato vectorial simplifica el proceso de edición, ya que la imagen se puede escalar, rotar y deformar sin pérdida. Además, cada transformación destruye la antigua imagen (o fragmento) y en su lugar se construye una nueva. Este método de presentación es bueno para diagramas y gráficos comerciales. Al codificar una imagen vectorial, no se almacena la imagen del objeto en sí, sino las coordenadas de los puntos, mediante el cual el programa recrea la imagen cada vez.

Principal desventaja gráficos vectoriales es incapacidad para producir imágenes de calidad fotográfica. En formato vectorial, la imagen siempre parecerá un dibujo.

Gráficos rasterizados. Cualquier imagen se puede dividir en cuadrados, obteniendo así trama - matriz bidimensional cuadrícula. Los propios cuadrados - elementos rasterizados o píxeles(elemento de la imagen): elementos de una imagen. El color de cada píxel está codificado con un número, lo que le permite especificar el orden de los números de color (de izquierda a derecha o de arriba a abajo) para describir el número de cada uno. La celda en la que se almacena el píxel se registra en la memoria.

Dibujar en formato rasterizado

A cada píxel se le asignan valores de brillo, color y transparencia, o una combinación de estos valores. Una imagen rasterizada tiene varias filas y columnas. Este método de almacenamiento tiene sus inconvenientes: se requiere una mayor cantidad de memoria para trabajar con imágenes.

El volumen de una imagen rasterizada se determina multiplicando el número de píxeles por el volumen de información de un punto, que depende del número de colores posibles. Las computadoras modernas utilizan principalmente las siguientes resoluciones de pantalla: 640 por 480, 800 por 600, 1024 por 768 y 1280 por 1024 píxeles. El brillo de cada punto y sus coordenadas se pueden expresar mediante números enteros, lo que permite el uso de código binario para procesar datos gráficos.

En el caso más simple (una imagen en blanco y negro sin escala de grises), cada punto de la pantalla puede tener uno de dos estados: "negro" o "blanco", es decir, se necesita 1 bit para almacenar su estado. Las imágenes en color se generan según el código de color binario de cada píxel almacenado en la memoria de vídeo. Las imágenes en color pueden tener diferentes profundidades de color, que están determinadas por la cantidad de bits utilizados para codificar el color de un punto. Las profundidades de color más comunes son 8, 16, 24, 32, 64 bits.

Para codificar imágenes gráficas en color, un color arbitrario se divide en sus componentes. Se utilizan los siguientes sistemas de codificación:

HSB (H - tono, S - saturación, B - brillo),

RGB (rojo - rojo,Verde - verde, Azul- azul) Y

CMYK ( C Yan - azul, Magenta - violeta, Amarillo - amarillo y Negro - negro).

El primer sistema es conveniente para persona, el segundo - para procesamiento por computadora, y el último es para imprentas. El uso de estos sistemas de color se debe a que el flujo luminoso puede estar formado por radiación que es una combinación de colores espectrales “puros”: rojo, verde, azul o sus derivados.

fractales es un objeto cuyos elementos individuales heredan las propiedades de las estructuras principales. Dado que una descripción más detallada de elementos de menor escala se produce mediante un algoritmo simple, un objeto de este tipo se puede describir con solo unas pocas ecuaciones matemáticas. Los fractales te permiten describir imágenes que requieren relativamente poca memoria para representarlas en detalle.

Dibujo en formato fractal.

gráficos 3D (3D) opera con objetos en el espacio tridimensional. Los gráficos por computadora tridimensionales se utilizan ampliamente en el cine y los juegos de computadora, donde todos los objetos se representan como un conjunto de superficies o partículas. Todas las transformaciones visuales en gráficos 3D se controlan mediante operadores que tienen una representación matricial.

Codificación de información de audio.

La música, como cualquier sonido, no es más que vibraciones sonoras que, una vez registradas, se pueden reproducir con bastante precisión. Para representar una señal de audio en la memoria de una computadora, es necesario representar las vibraciones acústicas recibidas en forma digital, es decir, convertirlas en una secuencia de ceros y unos. Con la ayuda de un micrófono, el sonido se convierte en vibraciones eléctricas, después de lo cual se puede medir la amplitud de las vibraciones a intervalos regulares (varias decenas de miles de veces por segundo) mediante un dispositivo especial. Conversor analógico a digital (CAD). Para reproducir sonido, una señal digital debe convertirse a analógica usando convertidor digital a analógico (CAD). Ambos dispositivos están integrados en tarjeta de sonido computadora. La secuencia indicada de transformaciones se presenta en la Fig. 2.6..

Transformación de señal analógica a digital y viceversa.

Cada medición de sonido se registra en código binario. Este proceso se llama muestreo (muestreo), realizado utilizando un ADC.

Muestra (muestra de muestra en inglés) es el intervalo de tiempo entre dos mediciones de la amplitud de una señal analógica. Además de un período de tiempo, también se llama muestra a cualquier secuencia de datos digitales que se obtiene mediante la conversión de analógico a digital. Un parámetro importante muestreo es frecuencia: el número de mediciones de la amplitud de la señal analógica por segundo. El rango de frecuencia de muestreo de audio es de 8000 a 48000 mediciones por segundo.

Representación gráfica del proceso de muestreo.

La calidad de reproducción se ve afectada frecuencia de muestreo y resolución(el tamaño de la celda asignada para registrar el valor de amplitud). Por ejemplo, grabar música en CD utiliza valores de 16 bits y una frecuencia de muestreo de 44032 Hz.

Al oír, una persona percibe ondas sonoras con una frecuencia que oscila entre 16 Hz y 20 kHz (1 Hz - 1 vibración por segundo).

En el formato Audio DVD CD, la señal se mide 96.000 veces en un segundo, es decir. Se utiliza una frecuencia de muestreo de 96 kHz. Para ahorrar espacio en el disco duro en aplicaciones multimedia, se suelen utilizar frecuencias más bajas: 11, 22, 32 kHz. Esto provoca una disminución del rango de frecuencia audible, lo que significa que lo que se escucha se distorsiona.

El conjunto de caracteres con los que se escribe el texto se llama alfabeto.

El número de caracteres del alfabeto es su fuerza.

Fórmula para determinar la cantidad de información: norte=2b,

donde N es la potencia del alfabeto (número de caracteres),

b – número de bits (peso de información del símbolo).

El alfabeto con una capacidad de 256 caracteres puede contener casi todos los caracteres necesarios. Este alfabeto se llama suficiente.

Porque 256 = 2 8, entonces el peso de 1 carácter es de 8 bits.

La unidad de medida de 8 bits recibió el nombre 1 byte:

1 byte = 8 bits.

El código binario de cada carácter del texto de la computadora ocupa 1 byte de memoria.

¿Cómo se representa la información textual en la memoria de la computadora?

La conveniencia de la codificación de caracteres byte a byte es obvia porque un byte es la parte más pequeña de la memoria direccionable y, por lo tanto, el procesador puede acceder a cada carácter por separado cuando procesa texto. Por otro lado, 256 caracteres es un número suficiente para representar una amplia variedad de información simbólica.

Ahora surge la pregunta: qué código binario de ocho bits asignar a cada carácter.

Está claro que se trata de una cuestión condicional; se pueden idear muchos métodos de codificación.

Todos los caracteres del alfabeto informático están numerados del 0 al 255. Cada número corresponde a un código binario de ocho bits del 00000000 al 11111111. Este código es simplemente el número de serie del carácter en el sistema numérico binario.

Una tabla en la que a todos los caracteres del alfabeto informático se les asignan números de serie se denomina tabla de codificación.

Para diferentes tipos Las computadoras usan diferentes tablas de codificación.

La mesa se ha convertido en el estándar internacional para PC. ASCII(leer preguntar) (Código estándar americano para el intercambio de información).

La tabla de códigos ASCII se divide en dos partes.

Sólo la primera mitad de la tabla es la norma internacional, es decir. símbolos con números de 0 (00000000), hasta 127 (01111111).

Estructura de la tabla de codificación ASCII

Número de serie

Código

Símbolo

0 - 31

00000000 - 00011111

Los símbolos con números del 0 al 31 suelen denominarse símbolos de control.
Su función es controlar el proceso de visualización de texto en pantalla o impresión, emisión de una señal sonora, marcado de texto, etc.

32 - 127

00100000 - 01111111

Parte estándar de la mesa (inglés). Esto incluye letras minúsculas y mayúsculas del alfabeto latino, números decimales, signos de puntuación, todo tipo de paréntesis, símbolos comerciales y otros.
El carácter 32 es un espacio, es decir posición vacía en el texto.
Todos los demás se reflejan en ciertos signos.

128 - 255

10000000 - 11111111

Parte alternativa de la mesa (ruso).
La segunda mitad de la tabla de códigos ASCII, llamada página de códigos (128 códigos, desde 10000000 hasta 11111111), puede tener diferentes opciones, cada opción tiene su propio número.
La página de códigos se utiliza principalmente para dar cabida a alfabetos nacionales distintos del latín. En las codificaciones nacionales rusas, los caracteres del alfabeto ruso se colocan en esta parte de la tabla.

Primera mitad de la tabla de códigos ASCII


Tenga en cuenta que en la tabla de codificación, las letras (mayúsculas y minúsculas) están ordenadas alfabéticamente y los números en orden ascendente. Esta observancia del orden lexicográfico en la disposición de los símbolos se denomina principio de codificación secuencial del alfabeto.

Para las letras del alfabeto ruso, también se observa el principio de codificación secuencial.

Segunda mitad de la tabla de códigos ASCII


Desafortunadamente, actualmente existen cinco codificaciones cirílicas diferentes (KOI8-R, Windows, MS-DOS, Macintosh e ISO). Debido a esto, a menudo surgen problemas al transferir texto en ruso de una computadora a otra, de una sistema de software a otro.

Cronológicamente, uno de los primeros estándares para codificar letras rusas en computadoras fue KOI8 ("Código de intercambio de información, 8 bits"). Esta codificación se utilizó allá por los años 70 en ordenadores de la serie ES, y desde mediados de los 80 empezó a utilizarse en las primeras versiones rusificadas del sistema operativo UNIX.

Desde principios de los años 90, época de predominio del sistema operativo MS DOS, la codificación CP866 permanece ("CP" significa "página de códigos", "página de códigos").

Las computadoras Apple que ejecutan el sistema operativo Mac OS usan su propia codificación Mac.

Además, la Organización Internacional de Normalización (ISO) ha aprobado otra codificación denominada ISO 8859-5 como estándar para el idioma ruso.

La codificación más común utilizada actualmente es Microsoft Windows, abreviado CP1251.

Desde finales de los años 90, el problema de la estandarización de la codificación de caracteres se ha resuelto mediante la introducción de un nuevo estándar internacional llamado Unicódigo. Esta es una codificación de 16 bits, es decir. Asigna 2 bytes de memoria para cada carácter. Por supuesto, esto aumenta 2 veces la cantidad de memoria ocupada. Pero dicha tabla de códigos permite la inclusión de hasta 65536 caracteres. La especificación completa del estándar Unicode incluye todos los alfabetos del mundo existentes, extintos y creados artificialmente, así como muchos símbolos matemáticos, musicales, químicos y otros.

Intentemos usar una tabla ASCII para imaginar cómo se verán las palabras en la memoria de la computadora.

Representación interna de palabras en la memoria de la computadora.

A veces sucede que un texto que consta de letras del alfabeto ruso recibido de otra computadora no se puede leer; se ve una especie de "abracadabra" en la pantalla del monitor. Esto sucede porque las computadoras usan diferentes codificaciones de caracteres para el idioma ruso.

Codificar información de texto en una computadora es a veces una condición esencial para el correcto funcionamiento de un dispositivo o la visualización de un fragmento en particular. Cómo ocurre este proceso durante el funcionamiento de una computadora con texto e información visual, sonido: analizaremos todo esto en este artículo.

Introducción

Computadora electrónica (que nosotros La vida cotidiana Lo llamamos computadora) percibe el texto de una manera muy específica. Para ella, codificar la información del texto es muy importante, ya que percibe cada fragmento de texto como un grupo de símbolos aislados entre sí.

¿Cuáles son los símbolos?

No solo las letras rusas, inglesas y otras, sino también los signos de puntuación y otros caracteres actúan como símbolos para una computadora. Incluso el espacio que utilizamos para separar palabras cuando escribimos en una computadora es percibido por el dispositivo como un símbolo. En cierto modo recuerda mucho a las matemáticas superiores, porque allí, según muchos profesores, el cero tiene un doble significado: es a la vez un número y al mismo tiempo no significa nada. Incluso para los filósofos, la cuestión del espacio en blanco puede ser una cuestión apremiante. Una broma, por supuesto, pero, como dicen, hay algo de verdad en cada broma.

¿Qué tipo de información hay?

Entonces, para percibir información, la computadora necesita comenzar a procesar procesos. ¿Qué tipo de información hay de todos modos? El tema de este artículo es la codificación de información textual. Prestaremos especial atención a esta tarea, pero también abordaremos otros microtemas.

La información puede ser textual, numérica, audio, gráfica. El ordenador debe ejecutar procesos que codifican información textual para poder mostrar en pantalla lo que, por ejemplo, escribimos en un teclado. Veremos símbolos y letras, esto es comprensible. ¿Qué ve la máquina? Ella percibe absolutamente toda la información, y ahora no estamos hablando solo de texto, como una determinada secuencia de ceros y unos. Forman la base del llamado código binario. En consecuencia, el proceso que convierte la información recibida por el dispositivo en algo que pueda entender se denomina "codificación binaria de información de texto".

Breve principio de funcionamiento del código binario.

¿Por qué la codificación binaria de información está más extendida en las máquinas electrónicas? La base del texto, que está codificada con ceros y unos, puede ser absolutamente cualquier secuencia de símbolos y signos. Sin embargo, esta no es la única ventaja que tiene la codificación de información en texto binario. El caso es que el principio en el que se basa este método de codificación es muy sencillo, pero al mismo tiempo bastante funcional. Cuando hay un impulso eléctrico, se marca (condicionalmente, por supuesto) con una unidad. No hay impulso - marcado con cero. Es decir, la codificación textual de información se basa en el principio de construir una secuencia de impulsos eléctricos. Una secuencia lógica compuesta de símbolos de código binario se llama lenguaje de máquina. Al mismo tiempo, codificar y procesar información textual mediante código binario permite realizar operaciones en un período de tiempo bastante corto.

bits y bytes

Un número percibido por una máquina contiene una determinada cantidad de información. Es igual a un bit. Esto se aplica a todos y cada uno de los ceros que componen una u otra secuencia de información cifrada.

En consecuencia, la cantidad de información en cualquier caso se puede determinar simplemente conociendo el número de caracteres en la secuencia del código binario. Serán numéricamente iguales entre sí. 2 dígitos del código contienen 2 bits de información, 10 dígitos, 10 bits, y así sucesivamente. El principio para determinar el volumen de información que se encuentra en un fragmento particular de código binario es bastante simple, como puede ver.

Codificar información de texto en una computadora.

Ahora mismo estás leyendo un artículo que consta de una secuencia, como creemos, de letras del alfabeto ruso. Y la computadora, como se mencionó anteriormente, percibe toda la información (y en este caso también) como una secuencia no de letras, sino de ceros y unos, lo que indica la ausencia y presencia de un impulso eléctrico.

El caso es que puedes codificar un carácter que vemos en la pantalla utilizando una unidad de medida convencional llamada byte. Como se escribió anteriormente, el código binario tiene la llamada carga de información. Recordemos que numéricamente es igual al número total de ceros y unos en el fragmento de código seleccionado. Entonces, 8 bits forman 1 byte. Las combinaciones de señales pueden ser muy diferentes, como se puede comprobar fácilmente dibujando en un papel un rectángulo formado por 8 celdas del mismo tamaño.

Resulta que la información de texto se puede codificar utilizando un alfabeto con una capacidad de 256 caracteres. ¿Cuál es el punto de? El significado radica en el hecho de que cada carácter tendrá su propio código binario. Las combinaciones "vinculadas" a ciertos caracteres comienzan desde 00000000 y terminan con 11111111. Si pasa del sistema numérico binario al decimal, puede codificar información en dicho sistema del 0 al 255.

No olvide que ahora existen varias tablas que utilizan la codificación de letras del alfabeto ruso. Estos son, por ejemplo, ISO y KOI-8, Mac y CP en dos variantes: 1251 y 866. Es fácil asegurarse de que el texto codificado en una de estas tablas no se mostrará correctamente en una codificación distinta a esta. Esto se debe al hecho de que en diferentes tablas diferentes caracteres corresponden al mismo código binario.

Esto fue un problema al principio. Sin embargo, hoy en día los programas ya tienen algoritmos especiales integrados que convierten el texto y le dan la forma correcta. 1997 estuvo marcado por la creación de una codificación llamada Unicode. En él, cada carácter tiene 2 bytes a su disposición. Esto le permite codificar texto con una cantidad mucho mayor de caracteres. 256 y 65536: ¿hay alguna diferencia?

Codificación de gráficos

La codificación de texto e información gráfica tiene algunas similitudes. Como sabes, para mostrar información gráfica, se utiliza. dispositivo periférico computadora llamada monitor. Los gráficos actuales (ahora estamos hablando de gráficos por computadora) se utilizan ampliamente en una variedad de campos. Afortunadamente, las capacidades del hardware Computadoras personales Le permite resolver problemas gráficos bastante complejos.

El procesamiento de información de vídeo se ha hecho posible en los últimos años. Pero el texto es mucho más "ligero" que los gráficos, lo que, en principio, es comprensible. Debido a esto, se debe aumentar el tamaño final de los archivos gráficos. Puede superar estos problemas si conoce la esencia en la que se presenta la información gráfica.

Primero, averigüemos en qué grupos se divide este tipo de información. En primer lugar, es rasterizado. En segundo lugar, vectores.

Las imágenes rasterizadas son bastante similares al papel cuadriculado. Cada celda de dicho papel está pintada con un color u otro. Este principio recuerda un poco a un mosaico. Es decir, resulta que en los gráficos rasterizados la imagen se divide en partes elementales separadas. Se llaman píxeles. Traducido al ruso, los píxeles significan "puntos". Es lógico que los píxeles estén ordenados con respecto a las líneas. La cuadrícula gráfica consta de un número determinado de píxeles. También se le llama ráster. Teniendo en cuenta estas dos definiciones, podemos decir que una imagen rasterizada no es más que una colección de píxeles que se muestran en una cuadrícula rectangular.

El tamaño de ráster y de píxeles del monitor afecta la calidad de la imagen. Cuanto mayor sea la trama del monitor, más alta será. Los tamaños de trama son resoluciones de pantalla de las que probablemente todos los usuarios hayan oído hablar. Una de las características más importantes que tienen las pantallas de ordenador es la resolución, no sólo la resolución. Muestra cuántos píxeles hay por unidad de longitud. Normalmente, la resolución del monitor se mide en píxeles por pulgada. Cuantos más píxeles por unidad de longitud, mayor será la calidad, ya que el “grano” se reduce.

Procesamiento de flujo de audio

La codificación de información de texto y audio, al igual que otros tipos de codificación, tiene algunas características. Hablemos ahora de último proceso: codificación de información de audio.

La representación de un flujo de audio (así como de un sonido individual) se puede producir mediante dos métodos.

Forma analógica de representación de información de audio.

En este caso, el valor realmente puede tomar gran cantidad diferentes significados. Además, estos mismos valores no permanecen constantes: cambian muy rápidamente y este proceso es continuo.

Forma discreta de representación de información de audio.

Si hablamos del método discreto, en este caso la cantidad solo puede tomar un número limitado de valores. En este caso, el cambio se produce de forma espasmódica. Puede codificar discretamente no sólo audio, sino también información gráfica. En cuanto a la forma analógica, por cierto.

La información de audio analógica se almacena, por ejemplo, en discos de vinilo. Pero el CD ya es una forma discreta de presentar información de audio.

Al principio hablamos del hecho de que la computadora percibe toda la información en lenguaje de máquina. Para ello, la información se codifica en forma de una secuencia de impulsos eléctricos: ceros y unos. La codificación de información de audio no es una excepción a esta regla. Para procesar sonido en una computadora, primero debe convertirlo en esa misma secuencia. Sólo después de esto se pueden realizar operaciones en una secuencia o en un solo sonido.

Cuando ocurre el proceso de codificación, la secuencia está sujeta a muestreo de tiempo. La onda sonora es continua; se desarrolla en pequeños períodos de tiempo. El valor de amplitud se establece para cada intervalo específico por separado.

Conclusión

Entonces, ¿qué descubrimos durante este artículo? En primer lugar, absolutamente toda la información que se muestra en el monitor de una computadora está codificada antes de aparecer allí. En segundo lugar, esta codificación implica traducir información al lenguaje de máquina. En tercer lugar, el lenguaje de máquina no es más que una secuencia de impulsos eléctricos: ceros y unos. En cuarto lugar, existen tablas separadas para codificar diferentes caracteres. Y, en quinto lugar, la información gráfica y sonora se puede presentar de forma analógica y discreta. Aquí, quizás, estén los puntos principales que hemos discutido. Una de las disciplinas que estudia esta área, es informática. La codificación de información textual y sus conceptos básicos se explican en la escuela, ya que no tiene nada de complicado.

Contenido

I. Historia de la codificación de la información………………………………..3

II. Codificación de la información……………………………………………………4

III. Codificación de información textual……………………………….4

IV. Tipos de tablas de codificación……………………………………………………...6

V. Cálculo de la cantidad de información textual…………………………14

Lista de referencias……………………………………..16

I . Historia de la codificación de información.

La humanidad ha estado utilizando el cifrado (codificación) de texto desde el mismo momento en que apareció la primera información secreta. A continuación se muestran varias técnicas de codificación de texto que se inventaron en distintas etapas del desarrollo del pensamiento humano:

La criptografía es escritura secreta, un sistema de cambio de escritura para que el texto sea incomprensible para los no iniciados;

Código morse o código telegráfico desigual, en el que cada letra o signo está representado por su propia combinación de fichas cortas corriente eléctrica(puntos) y parcelas elementales de triple duración (guión);

Los gestos característicos son un lenguaje de signos utilizado por personas con discapacidad auditiva.

Uno de los primeros métodos de cifrado conocidos lleva el nombre del emperador romano Julio César (siglo I a. C.). Este método se basa en reemplazar cada letra del texto cifrado por otra, desplazando el alfabeto de la letra original en un número fijo de caracteres, y el alfabeto se lee en círculo, es decir, después de la letra i, se considera a . Entonces, la palabra "byte", cuando se desplaza dos caracteres hacia la derecha, se codifica como la palabra "gwlf". El proceso inverso de descifrar una palabra determinada es necesario para reemplazar cada letra cifrada por la segunda a su izquierda.

II. Codificación de información

El código es un conjunto. simbolos(o señales) para registrar (o transmitir) algunos conceptos predefinidos.

La codificación de información es el proceso de formar una representación específica de información. En un sentido más estricto, el término "codificación" a menudo se entiende como una transición de una forma de representación de información a otra, más conveniente para su almacenamiento, transmisión o procesamiento.

Por lo general, cada imagen durante la codificación (a veces llamada encriptación) se representa mediante un signo separado.

Un signo es un elemento de un conjunto finito de elementos distintos entre sí.

En un sentido más estricto, el término "codificación" a menudo se entiende como una transición de una forma de representación de información a otra, más conveniente para su almacenamiento, transmisión o procesamiento.

Puede procesar información de texto en una computadora. Cuando se ingresa en una computadora, cada letra se codifica con un número determinado y cuando se envía a dispositivos externos (pantalla o impresión), se construyen imágenes de letras a partir de estos números para la percepción humana. La correspondencia entre un conjunto de letras y números se denomina codificación de caracteres.

Como regla general, todos los números en una computadora se representan mediante ceros y unos (no diez dígitos, como es habitual entre las personas). En otras palabras, los ordenadores suelen funcionar en el sistema numérico binario, ya que esto simplifica mucho los dispositivos para procesarlos. Ingresar números en una computadora y enviarlos para lectura humana se puede hacer en la forma decimal habitual, y todas las conversiones necesarias se realizan mediante programas que se ejecutan en la computadora.

III. Codificar información de texto

La misma información se puede presentar (codificar) de varias formas. Con la llegada de las computadoras, surgió la necesidad de codificar todo tipo de información con la que trata tanto un individuo como la humanidad en su conjunto. Pero la humanidad comenzó a resolver el problema de codificar información mucho antes de la llegada de las computadoras. Los grandiosos logros de la humanidad (la escritura y la aritmética) no son más que un sistema para codificar el habla y la información numérica. La información nunca aparece en su forma pura, siempre se presenta de alguna manera, se codifica de alguna manera.

La codificación binaria es una de las formas comunes de representar información. EN ordenadores En los robots CNC y en las máquinas herramienta, normalmente toda la información con la que trata el dispositivo está codificada como palabras del alfabeto binario.

Desde finales de los años 60, las computadoras se han utilizado cada vez más para procesar información de texto y actualmente la mayor parte de las computadoras personales en el mundo (y la mayor parte del tiempo) están ocupadas con el procesamiento de información de texto. Todo este tipo de información en una computadora se presenta en código binario, es decir, se utiliza un alfabeto de potencia dos (solo dos caracteres 0 y 1). Esto se debe a que conviene representar la información en forma de una secuencia de impulsos eléctricos: no hay impulso (0), hay impulso (1).

Esta codificación suele denominarse binaria, y las secuencias lógicas de ceros y unos se denominan lenguaje de máquina.

Desde el punto de vista de la computadora, el texto consta de caracteres individuales. Los símbolos incluyen no sólo letras (mayúsculas o minúsculas, latinas o rusas), sino también números, signos de puntuación, caracteres especiales como "=", "(", "&", etc., e incluso (¡preste especial atención!) espacios entre palabras.

Los textos se ingresan en la memoria de la computadora usando el teclado. Las letras, números, signos de puntuación y otros símbolos que conocemos están escritos en las teclas. Ingresan a la RAM en código binario. Esto significa que cada carácter está representado por un código binario de 8 bits.

Tradicionalmente, para codificar un carácter se utiliza una cantidad de información igual a 1 byte, es decir, I = 1 byte = 8 bits. Usando una fórmula que conecta el número de eventos posibles K y la cantidad de información I, puede calcular cuántos símbolos diferentes se pueden codificar (suponiendo que los símbolos sean eventos posibles): K = 2 I = 2 8 = 256, es decir, para To Para representar información de texto, puede utilizar un alfabeto con una capacidad de 256 caracteres.

Esta cantidad de caracteres es suficiente para representar información de texto, incluidas letras mayúsculas y minúsculas del alfabeto ruso y latino, números, signos, símbolos gráficos, etc.

La codificación consiste en asignar a cada carácter un código decimal único del 0 al 255 o un código binario correspondiente del 00000000 al 11111111. Así, una persona distingue los caracteres por su contorno y un ordenador por su código.

La conveniencia de la codificación de caracteres byte a byte es obvia porque un byte es la parte más pequeña de la memoria direccionable y, por lo tanto, el procesador puede acceder a cada carácter por separado cuando procesa texto. Por otro lado, 256 caracteres es un número suficiente para representar una amplia variedad de información simbólica.

En el proceso de mostrar un símbolo en la pantalla de una computadora, se realiza el proceso inverso: decodificar, es decir, convertir el código del símbolo en su imagen. Es importante que asignar un código específico a un símbolo sea una cuestión de acuerdo, que se registra en la tabla de códigos.

Ahora surge la pregunta: qué código binario de ocho bits asignar a cada carácter. Está claro que se trata de una cuestión condicional; se pueden idear muchos métodos de codificación.

Todos los caracteres del alfabeto informático están numerados del 0 al 255. Cada número corresponde a un código binario de ocho bits del 00000000 al 11111111. Este código es simplemente el número de serie del carácter en el sistema numérico binario.

IV . Tipos de tablas de codificación

Una tabla en la que a todos los caracteres del alfabeto informático se les asignan números de serie se denomina tabla de codificación.

Los diferentes tipos de computadoras utilizan diferentes tablas de codificación.

La tabla de códigos ASCII (Código estándar americano para el intercambio de información) se ha adoptado como estándar internacional, codificando la primera mitad de los caracteres con códigos numéricos del 0 al 127 (los códigos del 0 al 32 no se asignan a caracteres, sino a teclas de función) .

La tabla de códigos ASCII se divide en dos partes.

Sólo la primera mitad de la tabla es la norma internacional, es decir. caracteres con números del 0 (00000000) al 127 (01111111).

Estructura de la tabla de codificación ASCII

Número de serie Código Símbolo
0 - 31 00000000 - 00011111

Los símbolos con números del 0 al 31 suelen denominarse símbolos de control.

Su función es controlar el proceso de visualización de texto en pantalla o impresión, emisión de una señal sonora, marcado de texto, etc.

32 - 127 0100000 - 01111111

Parte estándar de la mesa (inglés). Esto incluye letras minúsculas y mayúsculas del alfabeto latino, números decimales, signos de puntuación, todo tipo de paréntesis, símbolos comerciales y otros.

El carácter 32 es un espacio, es decir posición vacía en el texto.

Todos los demás se reflejan en ciertos signos.

128 - 255 10000000 - 11111111

Parte alternativa de la mesa (ruso).

La segunda mitad de la tabla de códigos ASCII, llamada página de códigos (128 códigos, desde 10000000 hasta 11111111), puede tener diferentes opciones, cada opción tiene su propio número.

La página de códigos se utiliza principalmente para dar cabida a alfabetos nacionales distintos del latín. En las codificaciones nacionales rusas, los caracteres del alfabeto ruso se colocan en esta parte de la tabla.

Primera mitad de la tabla de códigos ASCII

Tenga en cuenta que en la tabla de codificación, las letras (mayúsculas y minúsculas) están ordenadas alfabéticamente y los números en orden ascendente. Esta observancia del orden lexicográfico en la disposición de los símbolos se denomina principio de codificación secuencial del alfabeto.

Para las letras del alfabeto ruso, también se observa el principio de codificación secuencial.

Segunda mitad de la tabla de códigos ASCII

Desafortunadamente, actualmente existen cinco codificaciones cirílicas diferentes (KOI8-R, Windows, MS-DOS, Macintosh e ISO). Debido a esto, a menudo surgen problemas al transferir texto en ruso de una computadora a otra, de un sistema de software a otro.

Cronológicamente, uno de los primeros estándares para codificar letras rusas en computadoras fue KOI8 ("Código de intercambio de información, 8 bits"). Esta codificación se utilizó allá por los años 70 en ordenadores de la serie ES, y desde mediados de los 80 empezó a utilizarse en las primeras versiones rusificadas del sistema operativo UNIX.

Desde principios de los años 90, época de predominio del sistema operativo MS DOS, la codificación CP866 permanece ("CP" significa "página de códigos", "página de códigos").

Las computadoras Apple que ejecutan el sistema operativo Mac OS usan su propia codificación Mac.

Además, la Organización Internacional de Normalización (ISO) ha aprobado otra codificación denominada ISO 8859-5 como estándar para el idioma ruso.

La codificación más común utilizada actualmente es Microsoft Windows, abreviada CP1251. Introducido por Microsoft; dada la generalizada sistemas operativos(OS) y otros productos de software de esta empresa en la Federación de Rusia ha encontrado una amplia distribución.

Desde finales de los años 90, el problema de la estandarización de la codificación de caracteres se ha resuelto mediante la introducción de un nuevo estándar internacional llamado Unicode.

Esta es una codificación de 16 bits, es decir. Asigna 2 bytes de memoria para cada carácter. Por supuesto, esto aumenta 2 veces la cantidad de memoria ocupada. Pero dicha tabla de códigos permite la inclusión de hasta 65536 caracteres. La especificación completa del estándar Unicode incluye todos los alfabetos del mundo existentes, extintos y creados artificialmente, así como muchos símbolos matemáticos, musicales, químicos y otros.

Representación interna de palabras en la memoria de la computadora.

usando una tabla ASCII

A veces sucede que un texto que consta de letras del alfabeto ruso recibido de otra computadora no se puede leer; se ve una especie de "abracadabra" en la pantalla del monitor. Esto sucede porque las computadoras usan diferentes codificaciones de caracteres para el idioma ruso.

Por tanto, cada codificación está especificada por su propia tabla de códigos. Como puede verse en la tabla, se asignan diferentes caracteres al mismo código binario en diferentes codificaciones.

Por ejemplo, la secuencia de códigos numéricos 221, 194, 204 en la codificación CP1251 forma la palabra "computadora", mientras que en otras codificaciones será un conjunto de caracteres sin significado.

Afortunadamente, en la mayoría de los casos el usuario no tiene que preocuparse por transcodificar documentos de texto, ya que esto se hace mediante programas de conversión especiales integrados en las aplicaciones.

V . Cálculo de la cantidad de información textual.

Tarea 1: Codifique la palabra "Roma" utilizando las tablas de codificación KOI8-R y CP1251.

Solución:

Tarea 2: Suponiendo que cada carácter está codificado en un byte, estime el volumen de información de la siguiente oración:

"Mi tío tiene las reglas más honestas,

Cuando me enfermé gravemente,

Se obligó a respetar

Y no se me ocurre nada mejor”.

Solución: Esta frase tiene 108 caracteres, incluyendo puntuación, comillas y espacios. Multiplicamos este número por 8 bits. Obtenemos 108*8=864 bits.

Tarea 3: Los dos textos contienen el mismo número de caracteres. El primer texto está escrito en ruso y el segundo en el idioma de la tribu Naguri, cuyo alfabeto consta de 16 caracteres. ¿De quién es el texto que contiene más información?

Solución:

1) I = K * a (el volumen de información del texto es igual al producto del número de caracteres por el peso de la información de un carácter).

2) porque Ambos textos tienen el mismo número de caracteres (K), entonces la diferencia depende del contenido de información de un carácter del alfabeto (a).

3) 2 a1 = 32, es decir a 1 = 5 bits, 2 a2 = 16, es decir y 2 = 4 bits.

4) Yo 1 = K * 5 bits, Yo 2 = K * 4 bits.

5) Esto significa que el texto escrito en ruso contiene 5/4 veces más información.

Tarea 4: El tamaño del mensaje, que contenía 2048 caracteres, era 1/512 MB. Determina el poder del alfabeto.

Solución:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 bits: convirtió el volumen de información del mensaje en bits.

2) a = I / K = 16384 /1024 = 16 bits: representa un carácter del alfabeto.

3) 2*16*2048 = 65536 caracteres – la potencia del alfabeto utilizado.

Tarea 5: Impresora laser Canon LBP imprime a una velocidad media de 6,3 Kbps. ¿Cuánto tiempo llevará imprimir un documento de 8 páginas si sabe que una página tiene un promedio de 45 líneas y 70 caracteres por línea (1 carácter - 1 byte)?

Solución:

1) Encuentre la cantidad de información contenida en 1 página: 45 * 70 * 8 bits = 25200 bits

2) Encuentre la cantidad de información en 8 páginas: 25200 * 8 = 201600 bits

3) Reducimos a unidades de medida comunes. Para ello convertimos Mbits en bits: 6,3*1024=6451,2 bits/seg.

4) Encuentre el tiempo de impresión: 201600: 6451,2 = 31 segundos.

Bibliografía

1. Ageev V.M. Teoría de la información y codificación: muestreo y codificación de información de medición. - M.: Mai, 1977.

2. Kuzmin I.V., Kedrus V.A. Fundamentos de la teoría de la información y la codificación. - Kyiv, escuela Vishcha, 1986.

3. Los métodos más simples de cifrado de texto / D.M. Zlatopolski. – M.: Chistye Prudy, 2007 – 32 p.

4. Ugrinovich N.D. Ciencias de la Computación y tecnologías de la información. Libro de texto para los grados 10-11 / N.D. Ugrinovich. – M.: BINOM. Laboratorio de Conocimiento, 2003. – 512 p.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n

Principio de codificación alfabética secuencial: en la tabla de codificación, las letras (mayúsculas y minúsculas) están ordenadas alfabéticamente y los números en orden ascendente de valor.

Imagen 8 de la presentación “Textos en memoria del ordenador» para lecciones de informática sobre el tema "Texto"

Dimensiones: 960 x 720 píxeles, formato: jpg. Para descargar una imagen gratuita para una lección de informática, haga clic derecho en la imagen y haga clic en "Guardar imagen como...". Para visualizar imágenes en clase, también puedes descargar gratis la presentación completa “Textos en la memoria del ordenador.ppsx” con todas las imágenes en un archivo zip. El tamaño del archivo es de 89 KB.

Descargar presentación

Texto

“Determinación de la cantidad de información” - N=2I. ¿Ni materia ni energía...? Cantidad de información. Información. ¿Cómo puedo medir la cantidad de información recibida? Objetivos Estudiar métodos para determinar la cantidad de información: cuantitativa; alfabético. Medimos... No te sorprendas, la información se puede medir cuantitativamente. Enfoque alfabético para determinar la cantidad de información.

“Codificación en informática” - Tabla de códigos ASCII para Rusia. ¿Acerca de? ¿Dónde se almacena? ¿Cómo se codifica? Codificación de información en informática y biología. Estructura del ADN. Gene. Plan de lección: la esencia de la codificación. Autores del modelo espacial de ADN. Tarea: Cuadro comparativo. Tripledad Unicidad Degeneración Universalidad No superposición.

“Codificación de información de texto”: el símbolo “a” aparecerá en el documento. Determinar el código numérico de un carácter. El código de símbolo se almacena en memoria de acceso aleatorio computadora, donde ocupa 1 byte. 1. Inicie el programa Bloc de notas estándar. Ingrese el comando [Insertar símbolo...]. Ingresando caracteres por código numérico. El cuadro de diálogo Símbolo aparecerá en la pantalla. Codificación de información textual.

“Representación de números en la memoria de la computadora” - Representación de un número entero. (2). Tema de la lección: Alcance pequeño. 31, 0 dígitos. Memoria. -25. 111111112= =1*27 + 1*26 + 1*25 + 1*24 + 1*23 + 1*22 + 1*21 + 1*20=25510. (10). Representación informática de números enteros. Explique la necesidad de utilizar tipos de datos enteros. Formatos de datos.

“Sistemas de signos para codificar información” - Codificación de información mediante sistemas de signos. Lenguajes naturales. ¿Cuáles deberían ser las propiedades de la información presentada en forma de conocimiento? Sistema de signos binarios. Dé ejemplos del uso de robots. ¿Cuáles deberían ser las propiedades de la información presentada en forma de mensajes? El significado de los signos. Suena el timbre de clase.

“Textos en la memoria de la computadora” - Alfabeto informático. Tabla de codificación, estándar internacional ASCII. El orden de las letras en el alfabeto latino es... i, j, k, l, m, n, o.... Textos en la memoria del ordenador. Cada letra es un símbolo del alfabeto informático y, por tanto, ocupa 1 byte de memoria. "Abracadabra". RESPUESTA: Las PC utilizan diferentes codificaciones de caracteres para el idioma ruso.

Hay un total de 15 presentaciones en el tema.

Publicaciones sobre el tema.