HTML-dagi belgilarni kodlash - Character encodings in HTML

HTML (Gipermatnlarni belgilash tili) 1991 yildan beri ishlatilgan, ammo HTML 4.0 (1997 yil dekabr) xalqaro standartlashtirilgan birinchi standartlashtirilgan versiya belgilar oqilona to'liq davolash qilindi. Agar HTML hujjati yetti bitli doiradan tashqaridagi maxsus belgilarni o'z ichiga olgan bo'lsa ASCII, ikkita maqsadni ko'rib chiqishga arziydi: ma'lumot yaxlitlik va universal brauzer displey.

Hujjat belgilarini kodlashni belgilash

Hujjatda qaysi belgi kodlash ishlatilishini ko'rsatishning bir necha yo'li mavjud. Birinchidan, veb-server belgilar kodlashni yoki "charset"ichida Gipermatn uzatish protokoli (HTTP) Tarkib turi odatda shunday bo'lishi mumkin bo'lgan sarlavha:[1]

Tarkib turi: text / html; charset = ISO-8859-4

Ushbu usul HTTP-serverga hujjat kodlashni o'zgartirish uchun qulay usulni beradi kontent bo'yicha muzokara; ba'zi bir HTTP server dasturlari buni amalga oshirishi mumkin, masalan Apache bilan modul mod_charset_lite.[2]

HTML uchun bu ma'lumotni ichiga kiritish mumkin bosh hujjatning yuqori qismidagi element:[3]

<meta http-equiv="Tarkib turi" tarkib="text / html; charset = utf-8">

HTML5 shuningdek, quyidagi sintaksisning aynan bir xil ma'noni anglatishiga imkon beradi:[3]

<meta charset="utf-8">

XHTML hujjatlar uchinchi variantga ega: orqali kodlash belgilarini ifodalash XML deklaratsiya, quyidagicha:[4]

<?xml version="1.0" encoding="ISO-8859-1"?>

Belgilar kodlashini bunga qadar bilish mumkin emas[tushuntirish kerak ] deklaratsiya tahlil qilinadi, deklaratsiyaning o'zi uchun qaysi kodlash ishlatilishini bilishda muammo bo'lishi mumkin. Asosiy tamoyil shundan iboratki, deklaratsiya sof ASCII-da kodlangan bo'lishi kerak va shuning uchun (agar deklaratsiya fayl ichida bo'lsa) kodlash kerak ASCII kengaytmasi. ASCII bilan orqaga qarab mos kelmaydigan kodlashlarga ruxsat berish uchun brauzerlar bunday kodlashlarda deklaratsiyani tahlil qilishlari kerak. Bunday kodlashlarga misollar UTF-16BE va UTF-16LE.

HTML5-dan boshlab tavsiya etilgan belgi UTF-8.[3] "Kodlashning hidlash algoritmi" spetsifikatsiyada bir nechta kirish manbalari asosida hujjatning belgilar kodlashini aniqlash uchun belgilanadi, shu jumladan:

  1. Foydalanuvchining aniq ko'rsatmasi
  2. Hujjatning dastlabki 1024 baytidagi aniq meta teg
  3. A Bayt buyurtma belgisi hujjatning dastlabki uch bayti ichida
  4. HTTP Content-Type yoki boshqa transport qatlami haqida ma'lumot
  5. Bayt qiymatlarining aniq ketma-ketligini yoki oralig'ini qidiradigan hujjat baytlarini tahlil qilish,[5] va boshqa taxminiy aniqlash mexanizmlari.

ASCII-ga mos keladigan belgilar kodlashi uchun noto'g'ri tanlanganlik natijasi shundaki, ASCII (32 dan 126 gacha) oralig'idagi belgilar odatda noto'g'ri ko'rinadi. Bu bir nechta muammolarni keltirib chiqaradi Ingliz tili - foydalanuvchilarni gapirish, lekin boshqa tillar muntazam ravishda - ba'zi hollarda, har doim - bu doiradan tashqaridagi belgilarni talab qiladi. Yilda CJK bir nechta turli xil baytli kodlashlar mavjud bo'lgan muhitlarda avtomatik aniqlash ham qo'llaniladi. Va nihoyat, brauzerlar odatda foydalanuvchini bekor qilishga imkon beradi noto'g'ri charset yorlig'i qo'lda ham.

Ko'p tilli veb-saytlar va g'arbiy tillardagi veb-saytlardan foydalanish tobora keng tarqalgan UTF-8 bu barcha tillar uchun bir xil kodlashdan foydalanishga imkon beradi. UTF-16 yoki UTF-32, barcha tillar uchun ham ishlatilishi mumkin bo'lgan, kamroq qo'llanilganligi sababli, ularni o'z ichiga olgan dasturlash tillarida ishlash qiyinroq bo'lishi mumkin. baytga yo'naltirilgan ASCII superset kodlash va ular ASCII belgilar yuqori chastotali matn uchun unchalik samarasiz, bu odatda HTML hujjatlari uchun qo'llaniladi.

Sahifani muvaffaqiyatli ko'rish uning kodlashi to'g'ri ko'rsatilganligini anglatmaydi. Agar sahifa yaratuvchisi va o'quvchisi ikkalasi ham biron bir platformaga xos belgilar kodlashini taxmin qilsalar va server biron bir aniqlovchi ma'lumot yubormasa, u holda o'quvchi sahifani yaratuvchisi maqsadiga muvofiq ko'radi, ammo boshqa platformalarda yoki boshqa tillarda bo'lgan boshqa o'quvchilar sahifani maqsadga muvofiq ko'rmaydi.

Ruxsat berilgan kodlash

The WHATWG So'nggi HTML standartlari (amaldagi WHATWG HTML turmush darajasi, shuningdek ilgari raqobatdosh bo'lgan) tomonidan kodlangan standart W3C HTML 5.0 va 5.1) brauzerlar qo'llab-quvvatlashi kerak bo'lgan kodlashlar ro'yxatini belgilaydi. HTML standartlari boshqa kodlashni qo'llab-quvvatlamaydi.[6][7][8] Kodlash standarti qo'shimcha ravishda yangi formatlar, yangi protokollar (hatto mavjud formatlardan foydalanilgan taqdirda ham) va yangi hujjatlar mualliflaridan foydalanishlari shart. UTF-8 faqat.[9]

UTF-8dan tashqari, quyidagi kodlashlar HTML standartida aniq kodlangan, kodlash standartiga havola qilingan:[8]

  1. ^ Shuningdek ko'rsatilgan TIS-620, ISO-8859-11 va tegishli teglar.[9]
  2. ^ Shuningdek ko'rsatilgan ASCII, ISO-8859-1 va tegishli teglar.[9]
  3. ^ Shuningdek ko'rsatilgan ISO-8859-9 va tegishli teglar.[9]
  4. ^ Ning takroriy kodi sifatida 0xA3A0 bilan ko'rsatilgan ideografik makon (U + 3000) moslik sabablari bo'yicha va U + E5E5 bundan mustasno (shaxsiy foydalanish belgisi).[10][11] Shuningdek, 0x80 bilan ko'rsatilgan, alternativ kodlash sifatida qabul qilingan evro belgisi (U + 20AC; qarang Windows-936 ).[12] Aks holda, 2005 yilgi standart xaritalarini bajaring.[11]
  5. ^ Gonkong qo'shimcha belgilar to'plami variant, garchi HKSCS kengaytmalarining ko'pi (qo'rg'oshin baytlari 0xA1 dan kam bo'lganlar) kodlovchi tomonidan kiritilmagan bo'lsa, faqat dekoder.[13]
  6. ^ Spetsifikatsiya o'z ichiga oladi IBM va NEC kengaytmalar (qarang. qarang Windows-31J ).[14]
  7. ^ Xususiyat Shift JIS uchun ishlatilgan indeksdan foydalanadi (imkon qadar), ya'ni NEC kengaytmalarini o'z ichiga oladi. Yarim enli kana kodlovchi tomonidan to'liq kenglikka aylantiriladi,[15] ammo dekoder tomonidan qochish ketma-ketligi (ESC 0x28 0x49) yordamida qabul qilingan.[16] Chiqish va Shift In Hujumlarning oldini olish uchun (0x0E va 0x0F) butunlay chiqarib tashlangan.[16][17]
  8. ^ Aslida Birlashgan Hangul kodeksi, bu butunlay o'z ichiga olgan superset Hangul hecalari blokirovka qilish.[18]
  9. ^ Faqat dekodlash uchun ko'rsatilgan; UTF-16 kodli hujjatlarning arizalarini kodlash kerak UTF-8.[19]
  10. ^ Joylashtirilgan tarkib bilan muvofiqligi uchun, shuningdek tekislik uchun belgilangan UTF-16 yorliq,[20] garchi a Bayt buyurtma belgisi agar mavjud bo'lsa, har qanday yorliqdan ustun turadi.[21] Faqat dekodlash uchun ko'rsatilgan; UTF-16 kodli hujjatlarning arizalarini kodlash kerak UTF-8.[19]
  11. ^ Xaritalar 0x00 dan 0x7F gacha U + 0000 dan U + 007F gacha va 0x80 dan 0xFF gacha U + F780 orqali U + F7FF (a Shaxsiy foydalanish maydoni kod oralig'ining past 8 biti har doim asl baytga mos keladigan darajada).[22]

Quyidagi qo'shimcha kodlashlar kodlash standartida keltirilgan va shuning uchun ularni qo'llab-quvvatlash ham talab qilinadi:[9]

  1. ^ ISO-8859-8 bilan bir xil kodlovchi va dekoderdan foydalanadi, lekin ISO-8859-8 sifatida belgilangan hujjatlar uchun ishlatiladigan ingl.[23]
  2. ^ Shuningdek ko'rsatilgan GB2312 va tegishli teglar. Kodni ochish uchun GB18030 bilan bir xil ishlaydi.[24] Kodlash maqsadida GBK (yoki GB2312) deb etiketlash to'rt baytli kodlarni istisno qiladi va U + 20AC uchun bir baytli 0x80 vakolatxonasini yoqtiradi.[10]
  3. ^ Spetsifikatsiya Shift JIS uchun ishlatilgan indeksni ishlatadi (EUC kodining 1-to'plamiga erishish mumkin bo'lgan vaqt ichida), ya'ni NEC kengaytmalarini o'z ichiga oladi. JIS X 0212 faqat kod hal qilish uchun kiritilgan.[25]

Quyidagi kodlashlar taqiqlangan kodlashning aniq namunalari sifatida keltirilgan:[8]

Standart shuningdek, "almashtirish" dekoderini belgilaydi, u tarkibiga ba'zi kodlashlar sifatida belgilangan barcha tarkibni xaritalar almashtirish belgisi ( ), uni qayta ishlashni umuman rad etish. Bu hujumlarning oldini olish uchun mo'ljallangan (masalan, saytlararo skriptlar ) zararli tarkibni yashirish uchun kodlashda qo'llab-quvvatlanadigan mijoz va server o'rtasidagi farqni ishlatishi mumkin.[26] Xuddi shu xavfsizlik muammosi ham amal qiladi ISO-2022-JP va UTF-16, shuningdek, ASCII baytlarining ketma-ketligini boshqacha talqin qilishga imkon beradi, bu yondashuv ular uchun mos emas edi, chunki ular joylashtirilgan tarkibda nisbatan tez-tez ishlatiladi.[27] Ushbu muolajani quyidagi kodlashlar oladi:[28]

Belgilarga havolalar

Belgilarning mahalliy kodlashlaridan tashqari, belgilar ham kodlanishi mumkin belgilarga havolalarbo'lishi mumkin raqamli belgilarga havolalar (o‘nli kasr yoki o'n oltinchi ) yoki belgi uchun mos yozuvlar. Belgilarning shaxsiga havolalar ba'zan ba'zan ham deyiladi nomlangan sub'ektlar, yoki HTML sub'ektlari HTML uchun. HTML-ning belgi ma'lumotlarini ishlatishi kelib chiqadi SGML.

HTML belgilariga havolalar

A raqamli belgilar ma'lumotnomasi HTML-da belgi unga tegishli Umumjahon belgilar to'plami /Unicode kod nuqtasiva formatidan foydalanadi

&#nnnn;

yoki

& # xhhhh;

qayerda nnnn kod nuqtasi o‘nli kasr shakli va hhhh kod nuqtasi o'n oltinchi shakl. The x XML hujjatlarida kichik harf bo'lishi kerak. The nnnn yoki hhhh har qanday sonli raqam bo'lishi mumkin va etakchi nollarni o'z ichiga olishi mumkin. The hhhh katta va kichik harflarni aralashtirishi mumkin, ammo katta harf odatiy uslubdir.

Hammasi emas veb-brauzerlar yoki elektron pochta mijozlari HTML hujjatlarni qabul qiluvchilar tomonidan ishlatiladi yoki matn muharrirlari HTML hujjatlari mualliflari tomonidan ishlatiladigan barcha HTML belgilarni ko'rsatish imkoniyatiga ega bo'ladi. Ko'pgina zamonaviy dasturiy ta'minot foydalanuvchi tili uchun belgilarning ko'pini yoki barchasini aks ettirishga qodir va ular ko'rsatib bo'lmaydigan belgilar uchun katakchani yoki boshqa aniq ko'rsatkichni chizadi.

0 dan 127 gacha bo'lgan kodlar uchun asl 7-bit ASCII standart to'plam, ushbu belgilarning aksariyati belgilar mos yozuvlarisiz ishlatilishi mumkin. 160 dan 255 gacha bo'lgan kodlarni barchasi yordamida yaratish mumkin belgi shaxs nomlari. Shaxs nomlari yordamida faqat bir nechta yuqori raqamli kodlarni yaratish mumkin, ammo ularning hammasi o'nlik raqam belgilariga mos yozuvlar yordamida yaratilishi mumkin.

Belgilar uchun mos yozuvlar ham formatga ega bo'lishi mumkin &ism; qayerda ism katta-kichik harflar qatori. Masalan, "λ" ni quyidagicha kodlash mumkin & lambda; HTML hujjatida. Belgilar uchun mos yozuvlar & lt;, & gt;, & quot; va & amp; HTML va SGML-da oldindan belgilangan, chunki <, >, " va & belgilashni chegaralash uchun allaqachon ishlatilgan. Bunga XML-lar kiritilmagan & apos; (') oldingi shaxs HTML5. HTML belgilariga oid barcha nomlangan ma'lumotlar ro'yxati va ular kiritilgan versiyalar bilan bir qatorda qarang XML va HTML belgilar uchun mos yozuvlar ro'yxati.

HTML belgilariga havolalarni keraksiz ishlatish HTML o'qilishini sezilarli darajada kamaytirishi mumkin. Agar veb-sahifa uchun belgilarni kodlash mos ravishda tanlangan bo'lsa, unda HTML belgilariga havolalar odatda faqat yuqorida aytib o'tilgan belgilarni chegaralash uchun belgilash uchun va bir nechta maxsus belgilar uchun (yoki mahalliy bo'lsa, umuman yo'q) Unicode kabi kodlash UTF-8 ishlatilgan). Noto'g'ri HTML ob'ektidan qochish, shuningdek, qarshi hujumlar uchun xavfsizlik zaifligini ochishi mumkin saytlararo skript. Agar HTML atributlari tirnoqsiz qoldirilsa, ba'zi belgilar, eng muhimi bo'sh joy bo'shliq va yorliq singari, ob'ektlar yordamida qochish kerak. HTML bilan bog'liq boshqa tillarda belgidan qochishning o'ziga xos usullari mavjud.

XML belgilariga havolalar

An'anaviy HTML-dan farqli o'laroq, juda ko'p xarakterli shaxslar murojaatlari, XML faqat beshta oldindan belgilab qo'yilgan belgilar mavjudotlari mavjud. Ular ma'lum kontekstda belgilanishga sezgir bo'lgan belgilardan qochish uchun ishlatiladi:[29]

  • & amp; → & (ampersand, U + 0026)
  • & lt; → <(belgidan kam, U + 003C)
  • & gt; →> (belgidan kattaroq, U + 003E)
  • & quot; → "(tirnoq belgisi, U + 0022)
  • & apos; → '(apostrof, U + 0027)

Boshqa barcha belgilar uchun mos yozuvlar ishlatilishidan oldin aniqlanishi kerak. Masalan, dan foydalanish & eacute; (bu é, lotin kichik shriftli E harfiga ega, Unicode-da U + 00E9) XML hujjatida xatolikka yo'l qo'yadi, agar mavjudot allaqachon aniqlanmagan bo'lsa. XML shuningdek, buni talab qiladi x o'n oltinchi raqamli ma'lumotlarda kichik harflar bilan yozing: masalan & # xA1b dan ko'ra & # XA1b. XHTML, bu XML dasturi bo'lib, XML-ning oldindan aniqlangan ob'ektlari bilan bir qatorda HTML mavjudot to'plamini qo'llab-quvvatlaydi.

Shuningdek qarang

Adabiyotlar

  1. ^ "Tarkib turi", Gipermatnli uzatish protokoli (HTTP / 1.1): Semantika va tarkib, IETF, 2014 yil iyun, olingan 30 iyul 2014
  2. ^ Apache moduli mod_charset_lite
  3. ^ a b v "Hujjat belgilarini kodlashni belgilash", HTML5, Butunjahon Internet tarmog'idagi konsortsium, 2017 yil 14-dekabr, olingan 28 may 2018
  4. ^ Bray, T.; Paoli, J .; Sperberg-McQueen, S; Maler, E .; Yergeau, F. (2008 yil 26-noyabr), "Prolog va hujjat turi deklaratsiyasi", XML, W3C, olingan 8 mart 2010
  5. ^ HTML5 kodlashni aniqlash uchun bayt oqimini oldindan tekshiradi
  6. ^ "8.2.2.3. Belgilar kodlashi". HTML 5.1 standarti. W3C.
  7. ^ "8.2.2.3. Belgilar kodlashi". HTML 5 standarti. W3C.
  8. ^ a b v "12.2.3.3 Belgilar kodlashi". HTML turmush darajasi. WHATWG.
  9. ^ a b v d e van Kesteren, Anne. "4.2: ismlar va yorliqlar". Kodlash standarti. WHATWG.
  10. ^ a b van Kesteren, Anne. "10.2.2. Gb18030 kodlovchi". Kodlash standarti. WHATWG.
  11. ^ a b van Kesteren, Anne. "5. Indekslar (§ indeks gb18030)". Kodlash standarti. WHATWG.
  12. ^ van Kesteren, Anne. "10.2.1. Gb18030 dekoderi". Kodlash standarti. WHATWG.
  13. ^ van Kesteren, Anne. "5. Indekslar (§ indeks Big5 ko'rsatkichi)". Kodlash standarti. WHATWG.
  14. ^ van Kesteren, Anne. "5. Indekslar (§ indeks jis0208)". Kodlash standarti. WHATWG.
  15. ^ van Kesteren, Anne. "5. Indekslar (§ indeks ISO-2022-JP katakana)". Kodlash standarti. WHATWG.
  16. ^ a b van Kesteren, Anne. "12.2.1. ISO-2022-JP dekoder". Kodlash standarti. WHATWG.
  17. ^ van Kesteren, Anne. "12.2.2. ISO-2022-JP kodlovchi". Kodlash standarti. WHATWG.
  18. ^ van Kesteren, Anne. "5. Indekslar (§ indeks EUC-KR)". Kodlash standarti. WHATWG.
  19. ^ a b van Kesteren, Anne. "4.3. Chiqish kodlashlari". Kodlash standarti. WHATWG.
  20. ^ van Kesteren, Anne. "14.4. UTF-16LE". Kodlash standarti. WHATWG.
  21. ^ van Kesteren, Anne. "6. Standartlar uchun kancalar (§ dekodlash)". Kodlash standarti. WHATWG.
  22. ^ van Kesteren, Anne. "14.5. X foydalanuvchi tomonidan belgilangan". Kodlash standarti. WHATWG.
  23. ^ van Kesteren, Anne. "9. Eski baytli kodlash (§ Izoh)". Kodlash standarti. WHATWG.
  24. ^ van Kesteren, Anne. "10.1. GBK". Kodlash standarti. WHATWG.
  25. ^ van Kesteren, Anne. "5. Indekslar (§ indeks jis0212)". Kodlash standarti. WHATWG.
  26. ^ van Kesteren, Anne. "14.1: almashtirish". Kodlash standarti. WHATWG.
  27. ^ van Kesteren, Anne. "2: xavfsizlik fonida". Kodlash standarti. WHATWG.
  28. ^ van Kesteren, Anne. "4.2: Ismlar va yorliqlar (§ almashtirish)". Kodlash standarti. WHATWG.
  29. ^ Bray, T.; Paoli, J .; Sperberg-McQueen, S; Maler, E .; Yergeau, F. (2008 yil 26-noyabr), "Belgilar va shaxs haqida ma'lumot", XML, W3C, olingan 8 mart 2010

Tashqi havolalar