ИНФОРМАЦИЯ,    ДИЗАЙН,    ПЕРЕВОДЫ,    РЕКЛАМА   .   .   .
w a p - с а й т
Информационный портал
Сегодня:  
admin@aranea.ru
+79068922256

  aranea.ru || Спецификация HTML 4.01 | 8. Информация о языке и направление текста

8. Информация о языке и направление текста

Этот раздел документа обсуждает два важных вопроса, влияющих на интернационализацию HTML: определение языка (атрибут lang) и направление (атрибут dir) текста в документе.

8.1. Определение языка содержания: атрибут: lang

8.1.1. Кодировки языков
8.1.2. Наследование кодировок языков
8.1.3. Интерпретация кодировок языков

Определение атрибута

lang = language-code [CI]
Этот атрибут определяет основной язык для значений атрибутов элемента и для содержания текста. Значение этого атрибута по умолчанию не известно.

Информация о языке, определенная атрибутом lang, используется устройством вывода для управления визуализацией различным образом. Ситуации, когда информация о языке, предоставленная автором, может быть полезной, включают:

  • Помощь поисковым системам;
  • Помощь синтезаторам речи;
  • Помощь устройству вывода в выборе вариантов глифов для высококачественной типографической разметки;
  • Помощь устройству вывода в выборе набора кавычек;
  • Помощь устройству вывода принять решение о переносах, лигатурах и интервалах;
  • Помощь проверочным системам правописания и грамматики.

Атрибут lang устанавливает язык содержания элемента и значений атрибутов; подходит ли он или нет, зависит от синтаксиса и семантики атрибута и проводимой операции.

Атрибут lang предназначен для того, чтобы позволить устройствам вывода точнее визуализировать содержание на основании культурной практики данного языка. Это не подразумевает, что устройства вывода будут представлять символы, нетипичные для частного языка, неподходящим образом; устройства вывода должны делать все, чтобы визуализировать все символы, не смотря на значение, определенное в lang.

Например, если символы из греческого алфавита появляются в середине английского теста:

<P><Q lang="en">Her super-powers were the result of
γ-radiation, </Q> he explained. </P>

устройство вывода (1) должно попытаться визуализировать английское содержание соответствующим образом (например, с соответствующими кавычками) и (2) должно сделать все, чтобы визуализировать γ, даже если это не английский символ.

Пожалуйста, обратитесь к разделу о символах, не выводимых на экран, для получения необходимой информации.

8.1.1 Кодировки языков

Значение атрибута lang – это кодировка, идентифицирующая естественный язык, на котором говорят, пишут или, который используют для передачи информации между людьми. Компьютерные языки строго исключены из кодировки языков.

[RFC1766] определяют и объясняют кодировки языков, которые должны использоваться в HTML-документах.

То есть языковые кодировки состоят из первичного кода и, возможно, пустых серий подкодов:

        language-code = primary-code ( "-" subcode )*

Ниже приводятся примеры языковых кодировок:

  • "en": английский язык.
  • "en-US": версия английского языка в США.
  • "en-cockney": версия английского языка Cockney.
  • "i-navajo": язык Navajo, на котором говорят некоторые аборигены Америки.
  • "x-klingon": Первичный тег "x" указывает на экспериментальный языковый тег.

Двухбуквенные первичные кодировки зарезервированы для языковых сокращений [ISO639]. Двухбуквенные кодировки включают: fr (French), de (German), it (Italian), nl (Dutch), el (Greek), es (Spanish), pt (Portuguese), ar (Arabic), he (Hebrew), ru (Russian), zh (Chinese), ja (Japanese), hi (Hindi), ur (Urdu) и sa (Sanskrit).

Любые двухбуквенные подкоды должны быть кодировками страны [ISO3166].

8.1.2 Наследование кодировок языков

Элемент наследует информацию о кодировке языка в соответствии со следующим порядком предшествования (от высшего к низшему):

  • Набор атрибутов lang для самого элемента.
  • Самый близкий родительский элемент, который имеет набор атрибутов lang (т.е., наследуемый атрибут lang).
  • Заголовок HTTP "Content-Language" (который может быть сконфигурирован на сервере). Например:
Content-Language: en-cockney
  • Значение устройства вывода по умолчанию, и предпочтение пользователя.

В следующем примере первичный язык документа - французский ("fr"). Один параграф объявляется - на испанском языке ("es"), после которого первичный язык возвращается к французскому. Второй параграф включает вложенную фразу на японском языке ("ja"), после которого первичный язык опять - французский.

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
   "http://www.w3.org/TR/html4/strict.dtd">
<HTML lang="fr">
<HEAD>
<TITLE>Un document multilingue</TITLE>
</HEAD>
<BODY>
...Interpreted as French...
<P lang="es">...Interpreted as Spanish...
<P>...Interpreted as French again...
<P>...French text interrupted by<EM lang="ja">some
         Japanese</EM>French begins here again...
</BODY>
</HTML>

Обратите внимание. Ячейки таблицы могут наследовать значение lang, не от своего родителя, а от первой ячейки в диапазоне. Пожалуйста, обратитесь к разделу о наследовании выравнивания для получения подробной информации.

8.1.3 Интерпретация кодировок языков

В контексте HTML, кодировка языков должна интерпретироваться устройствами вывода, как иерархия маркеров, а не единичный маркер. Когда устройство вывода регулируют визуализацию в соответствии с информацией о языке (скажем, сравнивая кодировки языков в стилевых таблицах и значения lang), оно всегда должно предпочитать точное соответствие, но оно также должно рассматривать согласование первичных кодировок, как достаточные. Таким образом, если значение атрибута lang "en-US" установлено для элемента HTML, то устройству вывода следует предпочитать стилевую информацию, которая первая согласуется с "en-US", и затем более общее значение "en".

Обратите внимание. Иерархия в языковых кодировках не гарантирует, что все языки с обычными префиксами будут поняты ими свободно в одном или нескольких этих языках. Они позволят пользователю запросить унифицированность, когда это – верно для пользователя.


← Назад | Вперед →
Copyright © 2006 -  aranea.ru