Біграми

Біграмний шифр — це криптографічний алгоритм, призначений для шифрування груп з двох букв (біграм).

«Батьком» біграмних шифрів вважають німецького абата Йоганеса Трісемуса, який ще 1508 року у своїй роботі з криптології, яка називалася «Поліграфія», вперше згадав про можливість шифрування біграм, тобто, дволітерних поєднань. Їх стійкість до розкриття виявилася значно вищою, ніж у попередників, тому деякі біграмні шифри зберегли актуальність аж до Другої світової війни.

В роки Першої світової війни Велика Британія використовувала біграмний «Шифр Плейфера».

Біграмний шифр «Подвійний квадрат», винайдений англійцем Чарльзом Вітстоном 1854 року, в роки Другої світової війни використовували німці.

Характеристика

Біграми використовують в одній з найуспішніших мовних моделей для розпізнавання мовлення.[1] Вони є частковим випадком N-грам.

Частоти біграм можна використати в криптографії для розв'язання криптограм. (Див. Частотний аналіз)

Частоти біграм є одним з підходів до статистичної ідентифікації мови.

Біграми допомагають отримати умовну ймовірність символу з урахуванням попереднього символу, застосовуючи відношення умовної ймовірності:

Тобто, ймовірність символу , якому передує символ , дорівнює ймовірності їх біграми , поділеній на ймовірність попереднього символу.

Біграми слів української мови

Статистика біграм в українських словах, з файлу /usr/share/dict/ukrainian.
Крапка позначає кінець і початок слова. Перший рядок містить ймовірності для кожної букви почати слово. Наприклад для и чи м'якого знака вона нульова. Другий рядок - з якою ймовірністю певна буква буде в слові після букви "а", і т.д. Також включені апостроф і дефіс. З передостаннього рядка можна побачити що з 69% ймовірності після апострофа буде "я", 14% - "є", 9% - "ї", 7% - "ю", а решка - винятки на в межах похибки, на зразок "О'Ніл". Якщо зустрічається буква "ї", то в 70% випадків слово далі закінчується.

Частота біграм в англійській мові

Частота найпоширеніших біграм у невеликому англомовному корпусі:[2]

th 1.52       en 0.55       ng 0.18he 1.28       ed 0.53       of 0.16in 0.94       to 0.52       al 0.09er 0.94       it 0.50       de 0.09an 0.82       ou 0.50       se 0.08re 0.68       ea 0.47       le 0.08nd 0.63       hi 0.46       sa 0.06at 0.59       is 0.46       si 0.05on 0.57       or 0.43       ar 0.04nt 0.56       ti 0.34       ve 0.04ha 0.56       as 0.33       ra 0.04es 0.56       te 0.27       ld 0.02st 0.55       et 0.19       ur 0.02

Доступні також повні таблиці частоти біграм для більших корпусів.[3][4]

Див. також

Примітки

Посилання

🔥 Top keywords: Головна сторінкаЧемпіонат Європи з футболу 2024Спеціальна:ПошукВікіпедія:Культурна спадщина та видатні постаті (2024)Збірна України з футболуБріджертониЧемпіонат Європи з футболу 2020YouTubeУкраїнаЧемпіонат Європи з футболуЗбірна Румунії з футболуРебров Сергій СтаніславовичГлобальний саміт мируРадіо «Свобода»ДефолтРумуніяЛунін Андрій ОлексійовичНаціональна суспільна телерадіокомпанія УкраїниДень батькаДовбик Артем ОлександровичШевченко Андрій МиколайовичЯрмоленко Андрій МиколайовичЧемпіонат Європи з футболу 2024 (кваліфікаційний раунд)Мудрик Михайло Петрович138-ма зенітна ракетна бригада (Україна)FacebookЄрмак Андрій БорисовичСексВійськові звання України22-га окрема механізована бригада (Україна)Зінченко Олександр ВолодимировичТериторіальний центр комплектування та соціальної підтримкиДумками навиворіт 2Чемпіонат Європи з футболу 2016Список операторів систем розподілу України2024 у телебаченніMegogoСписок українських жіночих іменКиїв