96% языков для интернета мертвы. Белорусский жив

Олег Нечай, Компьютерра

Для интернета существует только 4% мировых языков. Остальные 96% мертвы. В числе безоговорочно живых (unquestionably vital) оказался белорусский — в интернете им пользуются довольно активно.

К примеру, две белорусских Википедии, в официальном и классическом правописании, занимают 58 и 67 места по количеству статей. Однако белорусский, как и польский или итальянский, нельзя отнести к самым распространенным в интернете. Он жив, но как и польский или итальянский далек от первой десятки языков по активности использования

Для многих будет открытием, что жители Ближнего Востока предпочитают пользоваться для электронной переписки в интернете латинским алфавитом: сами слова они пишут по-арабски, но латинскими буквами. Более того, например, в Египте, многие вывески на магазинах тоже написаны по-арабски, но латиницей.

Означает ли это, что древней арабской письменности пришёл конец? Судя по новейшим исследованиям, арабскому языку и его традиционной письменности как раз ничего не угрожает — в отличие от нескольких тысяч других языков, которые просто не переживут цифровой век. Для Всемирной сети их уже не существует, так что интернет может стать для подавляющего большинства языков мирачем-то вроде глобальной катастрофы, которая стёрла с лица Земли всех динозавров.

Постепенные изменения, происходящие в тех или иных областях человеческой жизни, обычно описываются термином "эволюция", принятым в биологии. Однако когда учёные обсуждают эволюцию языков, терминология становится ещё более биологической: языки конкурируют за ареалы, порождают далёких родственников и умирают совсем как живые организмы.

В рамках научной деятельности ЮНЕСКО ведётся целый Атлас языков мира, находящихся под угрозой исчезновения. На момент написания статьи к этой категории отнесён 2 471 язык, с разной степенью уязвимости, причём используемая там классификация чрезвычайно близка к классификации вымирающих биологических видов.

Учёные оценивают степень опасности по различным критериям, в том числе по числу носителей языка, для которых он родной. В октябре 2013 года была опубликована любопытная научная работа "Цифровая смерть языков", в которой известный венгерский математик и лингвист Андраш Корнай исследует, какие из мировых языков находятся под угрозой вымирания в интернете и в электронных устройствах.

96% языков для интернета мертвы. Белорусский жив

Самые используемые языки интернета. Кликните для увеличения

По мнению Корная, об опасности, грозящей языкам в реальной жизни, свидетельствуют три признака. Во-первых, это утрата функциональности, в то время как какие-то другие языки вытесняют его из обихода в целых областях — например, в повседневном электронном общении, в электронной коммерции или официальном бизнесе. "Если этого нет в интернете, этого не существует".

Во-вторых, это потеря престижа, особенно у молодого поколения. И, наконец, утрата языковой компетентности, которая выражается в появлении поколения "полуносителей", которые всё ещё понимают старшее поколение, но сами выработали для себя серьёзно упрощённую версию грамматики.
Те же правила применимы и к интернету и цифровым устройствам, но если учёные давно привыкли наблюдать за упадком языков в реальном мире, то здесь возникает вопрос, возможно ли обратить процесс и сделать умирающие языки жизнеспособными в цифровом мире. Возможно ли полноценное онлайновое общение на таком языке и можно ли будет воспользоваться всем многообразием новых технологий с его помощью?

Задачей Корная было определить, как каждый из 7 776 мировых языков представлен в интернете. Во внимание принимались пять взаимосвязанных факторов: размер и демографический состав языкового сообщества, престиж языка, его идентификационная функция; уровень поддержки в программном обеспечении и представленность в Википедии.

Для этого он использовал различные методики. В частности, для определения степени представленности разных языков в общедоступных онлайновых текстах он измерял объём и число статей в Википедии на каждом из языков. Чтобы установить уровень поддержки языка в программном обеспечении, изучались как локализации интерфейса программ и системы проверки орфографии, так и просто его наличие в стандарте Unicode и других базах данных, позволяющих компьютерным устройствам автоматически опознавать разные языки.

Присутствие языка в Википедии стало одним из важнейших индикаторов его способности выжить в цифровой век. Поскольку успешность языка в цифровом пространстве означает его активное использование, было необходимо определить по меньшей мере одно популярное онлайновое сообщество, основанное на языке как основном средстве коммуникации.

96% языков для интернета мертвы. Белорусский жив

На иллюстрации показано соотношение числа носителей языка к объёму страниц на этом языке в Википедии (по логарифмической шкале)

Таким сообществом могли быть доски объявлений, рассылки, группы Yahoo или Google, но, по мнению Корная, Википедия всегда становится одним из первых активных цифровых языковых сообществ, которое можно рассматривать в качестве раннего индикатора того факта, что какой-то язык действительно преодолевает "цифровой барьер".

Причина в том, что дети, едва начав пользоваться компьютером не только для игр, практически сразу знакомятся с Википедией, предлагающей чрезвычайно комфортную среду для единомышленников. Онлайновая энциклопедия, составляемая пользователями, не только позволяет суммировать знания человечества, но и способна стать мощным инструментом продвижения языка и культуры в цифровом мире.

Чтобы язык получил полномочное представительство в интернете, ему жизненно необходима своя Википедия. Это подтверждает тот факт, что в настоящее время на стадии "инкубатора" находятся 533 языковых заявки, что более чем вдвое превышает число существующих Википедий. Желание обзавестить полноценной работающей Википедией настолько велико, что нередко приводит к манипуляциям с системой ранжирования, которая традиционно оценивает локализованные версии исключительно по числу входящих в них статей.

Вопиющий пример таких манипуляций — это неизменно занимающая места в первых десятках энциклопедия на искусственном языке волапюк, который фактически не используется сегодня никем, кроме трёх десятков энтузиастов. Почти все её статьи написаны ботами и состоят из чрезвычайно "полезной" информации вроде "Китсеместа — деревня в Эстонии, расположена на широте 8°55′ N и долготе 26°19′ E". В настоящее время ведётся дискуссия о перемещении Википедии на волапюке обратно в инкубатор и о предотвращении появления в дальнейшем подобных псевдоэнциклопедий.

На основе полученных в ходе исследования данных все языки были поделены на пять категорий: процветающие, жизнеспособные, пограничные, наследие (онлайновое присутствие обусловлено исключительно работой учёных по их изучению) и мёртвые (вообще не присутствующие ни в онлайне, ни в цифровых устройствах).

Выводы, к которым пришёл Корнай, оказались совсем неутешительными. Только 170 языков, или всего 2% от всех существующих, можно отнести к категориям процветающих или жизнеспособных в онлайне. Ещё 140, или 1,7%, можно считать пограничными. Оставшиеся 96,3%, или свыше шести тысяч языков, — "цифровые покойники". Причём в сложившихся условиях, когда для "цифровой жизни" языка требуются огромная издательская инфраструктура и многочисленные технические средства, у этих "мертвецов" нет никакой перспективы воскрешения.

Доминирование в интернете и в электронных устройствах небольшой группы мировых языков можно расценивать по-разному: как неизбежность, как возможность объединения народов или как способ держать подальше чужаков. Но это в любом случае утрата, ведь каждый язык отражает уникальный взгляд на мир и культурные установки языкового сообщества, сформировавшиеся способы восприятия окружающего мира, его философию и образ мышления.

Каждый язык — это выражение культурного наследия народа, и он остаётся таковым даже после фактического исчезновения такой культуры под влиянием других, нередко враждебных. А с исчезновением языка мы навсегда утрачиваем незаменимую часть человеческой истории, культурного богатства и знаний.

Новости по теме

Новости других СМИ