Resolución de cifrádos en Análisis frequencial ~ Killtrojan Security

Hace unos pocos dias hablé sobre el cifrádo César y un caso generalizado de este como es el cifrádo por sustitución de posiciónes X o también conocído como substitución monoalfabética. Este tipo de cifrados tíenen una pequeña debilidad calculada estadísticamente la qual es la frequencia con la que aparecen las letras, con esto damos paso al análisis frequencial.

El ejemplo tomado a descifrar, ya está solucionado, yo simplemente iré indicando los pasos a seguir y cualquier persona podrá ser capaz con un poco de suerte descifrar cualquier texto. En cuanto a descifrar es más fácil cuantas más palabras tenga el texto cifrádo, así la aproximación hecha en cuanto a frequencia de letras será mas precisa. Primero indicar que éste análisis se hace mediante una tabla de frequencias, esta tabla tendrá en porcentaje las letras del alfabéto por porcentaje de más aparición.

Altas	Medias	Bajas	Bajas
E - 16,78%	R - 4,94%	Y - 1,54%	J - 0,30%
A - 11,96%	U - 4,80%	Q - 1,53%	Ñ - 0,29%
O - 8,69%	I - 4,15%	B - 0,92%	Z - 0,15%
L - 8,37%	T - 3,31%	H - 0,89%	X - 0,06%
S - 7,88%	C - 2,92%	G - 0,73%	K - 0,00%
N - 7,01%	P - 2,776%	F - 0,52%	W - 0,00%
D - 6,87%	M - 2,12%	V - 0,39%

El texto a desencriptar será el siguiente, el método consiste en contár las veces que aparécera cada letra, para entendérnos, mirarémos en que frequencia salen.

IQ, LTIQ, PI QVAIÑ NTI IQSI QKAÑIPCMBK BCPVFOK, FKQ ÑVSKQ NTI IQSVAV KMCKQK, NTI IÑVH FKQ GVQ PIF VJK, QI PVAV V FIIÑ FCAÑKQ PI MVAVFFIÑCVQ, MKH SVHSV VRCMCKH Y OTQSK, NTI KFUCPK MVQC PI SKPK LTHSK IF IDIÑMCMCK PI FV MVZV, Y VTH FV VPGCHCQSÑVMCKH PI FV BVMCIHPV

Una vez contadas tenémos que:

V-27, I-26, K-20, Q-17, C-14, F-14, P-13, M-11, Ñ-9, S-9, H-9, T-8, A-6, N-4, B-3, L-2, O-2, G-2, Y-2, J-1, R-1, U-1, D-1, Z-1.

Ahora mirando la tabla, según sus porcentajes y según el orden de aparición que ha salido intentarémos ajustarlo, quedando lo sigueinte:

al, qcal, da lepau mca alia lopuadsryo ysdenbo, nol ueiol mca aliepe orsolo ...

Lo que ha quedado, no es entendible, pero mirando de forma general el mensaje verémos que nos ha quedado unas cosas que nos pueden llamar la atención, són unas cadénas que se repiten durante varias veces, són "PI","NTI","IQ". La cadéna que más llama la atención es NTI que aparece durante 4 veces. Una palabra muy frequente de tres letras es "que", así podríamos provar "NTI" = "QUE".

En el caso de la cadena PI que se repite varias veces también, nos fijamos hi hay una que pone PIF,eso nos puede dar a pensar que se trata de de/del.

Bueno, se ha supuesto unas ciertas condiciónes, pero podemos seguir sacando más conclusiónes, si se ha dicho que I = E, y V su frequencia es la más alta y no puede ser E, pasará a la siguiente de la tabla y dirémos que V = A.

Suponemos:

N = Q , T = U , I = E , P = D , F = L, V = A

Ahora reconstruyamos el texto con estos datos:

eQ, LueQ, de QaAeÑ que eQSe QKAÑedCMBK BCdalOK, lKQ ÑaSKQ que eQSaAa KMCKQK, que eÑaH lKQ GaQ del aJK, Qe daAa a leeÑ lCAÑKQ de MaAalleÑCaQ, MKH SaHSa aRCMCKH Y OuQSK, que KlUCdK MaQC de SKdK LuHSK el eDeÑMCMCK de la MaZa, Y auH la adGCHCQSÑaMCKH de la BaMCeHda

Ahora, centrémonos otra vez en la tabla, las letras que todavía no se ha supuesto cual es su valor descifrado y tienen una alta frequencia son la K y la Q. En la tabla ahora miraremos las letras que tiénen más frequencia y todavia no se hayan supuesto, en éste caso tenémos la O y la S

Altas

E - 16,78%

A - 11,96%

O - 8,69%

L - 8,37%

S - 7,88%

N - 7,01%

D - 6,87%

Así que supondrémos que K = O y Q = S donde sustituyendo tendrémos:

es, Lues, de saAeÑ que esSe soAÑedCMBo BCdalOo, los ÑaSos que esSaAa oMCoso, que eÑaH los Gas del aJo, se daAa a leeÑ lCAÑos de MaAalleÑCas, MoH SaHSa aRCMCoH Y OusSo, que olUCdo MasC de Sodo LuHSo el eDeÑMCMCo de la MaZa, Y auH la adGCHCsSÑaMCoH de la BaMCeHda

Ahora solo hace falta seguir mirando las letras que todavia no se les a asignado un supuesto valor con las que tienen mayor frequencia e ir asignando, en éste caso podríamos hacer las siguientes suposiciónes L = p, S = t, Ñ = r, A = b .Donde queda:

es, pues, de saber que este sobredCMBo BCdalOo, los ratos que estaba oMCoso, que eraH los Gas del aJo, se daba a leer lCbros de MaballerCas, MoH taHta aRCMCoH Y Ousto, que olUCdo MasC de todo puHto el eDerMCMCo de la MaZa, Y auH la adGCHCstraMCoH de la BaMCeHda

Llegados a este punto el texto empieza a entenderse y hay palabras que se ve claramente cuales són. Simplemente con algún análisis mas de frequencia y haciéndo algúnas consideraciónes se deberia llegar al siguiente texto:

'Es, pues de saber que este sobredicho hidalgo, los ratos que estaba ocioso, que eran los más del año, se daba a leer libros de caballerías, con tanta afición y gusto, que olvidó casi de todo punto el ejercicio de la caza, y aun la administración de la hacienda'

Un análisis de estos no se hace en 10 minútos ya que se deben suponer más de un camíno ya que a veces una letra puede avanzar a otra en cuanto frequencia cuando en la tabla no ocurre. Recuerdo que cuantas más letras tenga el texto a descifrar. Más precisas serán las suposiciónes.