യൂണികോഡ്
വിക്കിപീഡിയ, ഒരു സ്വതന്ത്ര വിജ്ഞാനകോശം.
ലോകഭാഷകളിലെ ലിപികളുടെ കമ്പ്യൂട്ടറുകളിലുള്ള ആവിഷ്കാരത്തിനായി നിര്മ്മിച്ചിരിക്കുന്ന ഒരു മാനദണ്ഡമാണ് യൂണികോഡ്. ഇംഗ്ലീഷ് അറിയുന്നവര്ക്കുള്ളതാണ് കമ്പ്യൂട്ടറെന്ന അബദ്ധധാരണ പൊളിച്ചെഴുതിയതാണ് യൂണീകോഡിന്റെ നേട്ടം. പുതിയ പല ഓപ്പറേറ്റിങ്ങ് സിസ്റ്റങ്ങളും, എക്സ്.എം.എല്, ജാവാ തുടങ്ങിയ സാങ്കേതിക വിദ്യകളും യൂണീകോഡിനെ പിന്തുണക്കുന്നുണ്ട്. യൂണികോഡ് കണ്സോര്ഷ്യം എന്ന ലാഭരഹിത സംഘടനയാണ് യൂണീകോഡിന്റെ നിര്മ്മാണത്തിനു പിന്നില്. ലോകത്ത് നിലനില്ക്കുന്ന എല്ലാഭാഷകളേയും ഒരുമിച്ചവതരിപ്പിക്കുക എന്നതാണ് ഈ സംഘടനയുടെ പ്രഖ്യാപിത ലക്ഷ്യം. എല്ലാ പ്രാദേശിക ഭാഷാ ഉപയോക്താക്കള്ക്കും അവരവരുടെ ഭാഷകളില് കമ്പ്യൂട്ടര് ഉപയോഗിക്കാനുള്ള അവസരം സൃഷ്ടിച്ചതാണ് യൂണീകോഡിന് പിന്നില് പ്രവര്ത്തിക്കുന്ന യൂണീകോഡ് കണ്സോര്ഷ്യത്തിന്റെ സംഭാവന. ഈ സംഘടനയുടെ ഔദ്യോഗിക സൈറ്റാണ് യൂണീകോഡ് ഡോട്ട് ഓര്ഗ്.
ഉള്ളടക്കം |
[തിരുത്തുക] ചരിത്രം
അക്ഷരങ്ങളും അക്കങ്ങളും ചിഹ്നങ്ങളും പൂജ്യത്തിന്റേയും ഒന്നിന്റേയും കൂട്ടങ്ങളായി മാറ്റിയാണ് കമ്പ്യൂട്ടറില് ശേഖരിച്ചു വയ്ക്കുന്നത്. ഇങ്ങനെ ശേഖരിക്കുന്നതിന് ഓരോന്നിനും അതിന്റേതായ കോഡുകള് ഉണ്ടായിരിക്കണം. ഇപ്പോള് ഇത് കൂടുതലായും ASCII (അമേരിക്കന് സ്റ്റാന്ഡാര്ഡ് കോഡ് ഫോര് ഇന്ഫര്മേഷന് ഇന്റ്റര്ചേഞ്ച്) കോഡുപയോഗിച്ചാണ് നിര്വ്വഹിച്ചു വരുന്നത്. ഇതുപയോഗിച്ചുണ്ടാക്കാവുന്ന അക്ഷരാദികളുടെ എണ്ണം (256) പരിമിതമായതുകൊണ്ട് രണ്ടു ഭാഷകളിലെ അക്ഷരങ്ങളേ ഒരേ സമയം ഉപയോഗിക്കാന് സാധിക്കുകയുള്ളു. ഇതില് ആദ്യത്തെ 128 എണ്ണം ഇംഗ്ളീഷിനും അടുത്ത 128 എണ്ണം വേറെ ഏതെങ്കിലും ഭാഷക്കും ഉപയോഗിക്കാം.
ലോകമാസകലം കമ്പ്യുട്ടറുകള് വരുകയും അവയെയെല്ലാം ബന്ധിപ്പിക്കുന്ന ഇന്റര്നെറ്റ് സംജാതമാകുകയും ചെയ്തതോടെ ലോകഭാഷകള് എല്ലാം അടങ്ങുന്ന ഒരു കോഡിംഗ് സിസ്റ്റം ആവശ്യമായിവന്നു. ഇതിലേക്കായി ഇന്റര്നാഷണല് സ്റ്റാന്ഡാര്ഡ് ISO/IEC 106461, ഒരു പദ്ധതി തയ്യാറാക്കി. ഈ പദ്ധതിയില് ഉള്പ്പെടുത്തിയ എല്ലാ അക്ഷരാദികളേയും സ്വാംശീകരിച്ചുകൊണ്ട് കുറച്ചു കൂടി ബൃഹത്തായതും ലോകഭാഷകളാകമാനം ഉള്ക്കൊള്ളാനാവുന്നതും ഭാവി വികസനങ്ങള്ക്ക് പഴുതുള്ളതുമായ ഒരു കോഡിംഗ് സമ്പ്രദായം വേണമെന്ന് കമ്പ്യൂട്ടര് ലോകത്തിനു തോന്നി. അങ്ങനെയാണ് കമ്പ്യൂട്ടര് കോര്പ്പറേഷനുകളും സോഫ്റ്റ്വെയര് ഡാറ്റാബേസ് കച്ചവടക്കാരും, അന്താരാഷ്ട്ര ഏജന്സികളും ഉപയോക്താക്കളും ചേര്ന്ന് 1991-ല് ദി യുണിക്കോഡ് കണ്സോര്ഷ്യം എന്ന ഒരു സംഘടന രൂപീകരിച്ചത്. ഇന്ത്യാ ഗവണ്മെണ്റ്റിന്റ്റെ ഇന്ഫര്മേഷന് ടെക്നോളജി ഡിപ്പാര്ട്ട് മെന്റ്റ് ഇതിലെ ഒരു മുഴുവന് സമയ അംഗമാണ് .
ലോകഭാഷകളെല്ലാം പിന്തുണയ്ക്കുന്ന ഒരു ഇന്റര്നാഷണല് സ്റ്റാന്ഡേര്ഡ് വികസിപ്പിച്ചെടുക്കാനും ഇതിനായുള്ള വിവിധതലങ്ങളിലെ പ്രവര്ത്തനങ്ങള് ഏകോപിപ്പിക്കാനും ഉണ്ടാക്കിയ സംഘടനയാണ് യൂണീകോഡ് കണ്സോര്ഷ്യം. ഈ സംഘടനയുടെ കാര്യപ്രവര്ത്തനങ്ങള് ജനങ്ങളെ അറിയിക്കുന്നതിനായാണ് യൂണീകോഡ് ഡോട്ട് ഓര്ഗ് എന്ന സൈറ്റ് നിലവില് വന്നത്.
ഇന്റര്നാഷണല് സ്റ്റാന്റേര്ഡ് ഓര്ഗനൈസേഷനും യുണിക്കോഡും ചേര്ന്ന് 1992ല് യൂണിക്കോഡ് വേര്ഷന് 1.0 പുറത്തിറക്കി. ഇതു പരിഷ്കരിച്ച് 2.0യും 2000 ഫെബ്രുവരിയില് 3.0യും പുറത്തിറങ്ങി. ISO 10646 -ല് 32 ബിറ്റുപയോഗിച്ചിരുന്നിടത്ത് 16 ബിറ്റു മാത്രമേ യൂണിക്കോഡ് ഉപയോഗിക്കുന്നുള്ളൂ. അതായത് 16 സ്ഥാനങ്ങളിലായി ഒന്നും പൂജ്യവും നിരത്തി 65000-ല് പരം അക്ഷരാദികളുടെ കോഡുകള് നിര്മ്മിക്കാം. ഇവ 500 ഓളം ഭാഷകള്ക്കു മതിയാകും. പുരാതന ലിപികളും ഭാവിയില് ഉണ്ടാകുന്ന ലിപികളും ഇതില് ഉള്ക്കൊള്ളിക്കാന് തക്കവിധത്തില് ഇതിനെ വിപുലപ്പെടുത്താനും സാധിക്കുന്നതാണ് . പ്രധാനപ്പെട്ട ലോകഭാഷകള് മിക്കവാറും എല്ലാം തന്നെ ഉള്പ്പെട്ടുത്തി 49194 അക്ഷരാദികള്ക്ക് ഇതിനകം കോഡുകള് നല്കിക്കഴിഞ്ഞു. ഇതില് ചൈനീസും ജാപ്പനീസും ഉള്പ്പെടും. അടുത്തുതന്നെ ബര്മീസ്, സിന്ഹാളീസ്, സിറിയക് മുതലായ ഭാഷകളും ഇതിന്റേ കീഴില് കൊണ്ടു വരുന്നതാണ്.
ആഗോളമായി നടക്കുന്ന സകല ഭാഷാ കമ്പ്യൂട്ടിംഗ് പ്രവര്ത്തനങ്ങളുടെയും മൂലക്കല്ലാണ് യൂണീകോഡ്. പ്രാദേശിക ഭാഷകളിലേക്ക് വിവിധ സോഫ്റ്റ്വെയറുകള് പ്രാദേശികവല്ക്കരിക്കാന് (ലോക്കലൈസ് ചെയ്യാന്) ഇതല്ലാതെ മറ്റൊരു ഉത്തരമില്ലതന്നെ.
യൂണിക്കോഡ് ഭാഷയിലെ അക്ഷരങ്ങള്ക്ക് കോഡുകള് നല്കിയെങ്കിലും അവ എങ്ങനെ സ്ക്രീനില് കാണണമെന്ന് ഹാര്ഡ്വേറും സോഫ്റ്റ്വേറും ഇറക്കുന്നവരാണ് തീരുമാനിക്കുന്നത്. ലോക ഭാഷകള് ഒരേ സ്ക്രീനില് പ്രത്യക്ഷപ്പെടേണ്ടി വരുമ്പോള് ലോക പ്രശസ്തരായ IBM, മൈക്രോസോഫ്റ്റ്, ഒറാക്കിള്, ആപ്പിള് എന്നിത്യാദി വമ്പന് മാരെല്ലാം യൂണിക്കോഡിനെ വാരിപ്പുണരുന്നതില് അത്ഭുതപ്പെടാനില്ല. ഇന്റര്നെറ്റിന്റേ ലോകവ്യാപകമായ പ്രചാരത്തോടുകൂടി യൂണിക്കോഡും ഒരു ആഗോളലിപികളുടെ കോഡായിമാറിക്കഴിഞ്ഞു.
9 ഇന്ത്യന് ഭാഷകള്ക്കായി 128 X 9 = 1152 കോഡുകള് (2304 മുതല് 3455 വരെ) അലോട്ടുചെയ്തിരിക്കുന്നതില് 3328 മുതല് 3455 വരെയുള്ള 128 എണ്ണം മലയാള ലിപികള്ക്കാണ് തന്നിരിക്കുന്നത്.
[തിരുത്തുക] യൂണിക്കോഡിനു മുമ്പ്
ഇത്ര നാളും ആംഗലേയമായിരുന്നു കമ്പ്യൂട്ടര് രംഗത്ത് എല്ലാ കാര്യങ്ങള്ക്കും ഉപയോഗിച്ചിരുന്നത്. പ്രോഗ്രാമുകളും ,പ്രമാണങ്ങളും, ഇന്റര്നെറ്റിലെ വിവിധ ആവശ്യങ്ങള്ക്കുമെല്ലാം ആംഗലേയ ഭാഷയാണ് ഉപയോഗിച്ചിരുന്നത്.
അടിസ്ഥാനപരമായി കമ്പ്യൂട്ടറുകള് സംഖ്യകളാണ് എല്ലാ കാര്യങ്ങള്ക്കും ഉപയോഗിക്കുന്നത്. അക്ഷരങ്ങളും, അക്കങ്ങളും, ചിഹ്നങ്ങളുമൊക്കെ സംഖ്യകളായിട്ടാണ് കമ്പ്യൂട്ടര് ശേഖരിച്ചുവക്കുന്നത്. അക്ഷരങ്ങള് സംഖ്യാരീതിയിലാക്കാന് വിവിധ എന്കോഡിങ്ങ് രീതികള് നിലവിലുണ്ട്. ആസ്കി (ASCII), എബ്സിഡിക്(EBCDIC), യൂണിക്കോഡ് എന്നിങ്ങനെ വിവിധ എന്കോഡിങ്ങ് രീതികള്. അക്കങ്ങളും, ഭാഷാചിഹ്നങ്ങളുമൊക്കെ സംഖ്യകളായാണ് കമ്പ്യൂട്ടറിനുള്ളില് ഇരിക്കുന്നതെങ്കിലും, ഇത്തരം സംഖ്യകള് സാധാരണ സംഖ്യകള് പോലെയല്ല കൈകാര്യം ചെയ്യപ്പെടുന്നത്.
ആദ്യകാലത്ത് കമ്പ്യൂട്ടറുകള് കൂടുതലും സംഖ്യാസംബന്ധമായ കണക്കുകൂട്ടലുകള്ക്കാണ് കൂടുതലും ഉപയോഗിച്ചിരുന്നത്, എന്നിരുന്നാലും അക്കങ്ങളും അക്ഷരങ്ങളും രേഖപ്പെടുത്തേണ്ട അവസരങ്ങള് അക്കാലത്തും ഉണ്ടായിരുന്നു. ടൈപ്പ്റൈറ്ററുകളായിരുന്നു ലിഖിതങ്ങളായ പ്രമാണങ്ങളും മറ്റും ഉണ്ടാക്കാന് അധികം ഉപയോഗിച്ചിരുന്നത്. പതുക്കെ കമ്പ്യൂട്ടറുകള് ടൈപ്പ്റൈറ്ററുകളെ പിന്തള്ളി. ലിഖിതങ്ങളും അല്ലാത്തതുമായ പ്രമാണങ്ങള്, ചിത്രങ്ങള് എന്നിവ സൃഷ്ടിക്കാനുള്ള കമ്പ്യൂട്ടറിന്റെ കഴിവ് വര്ദ്ധിച്ചു വന്നുകൊണ്ടിരുന്നതാണ് ഇതിനു കാരണം. അച്ചടിക്കുന്നതിനു മുമ്പ് തിരുത്താനുള്ള സൗകര്യവും കമ്പ്യൂട്ടര് സൃഷ്ടിതമായ പ്രമാണങ്ങള്ക്കുണ്ടായിരുന്നു. പക്ഷെ വളരെ ചുരുക്കം അക്ഷരങ്ങളും , ചിഹ്നങ്ങളും മറ്റുമെ ഉപയോഗിക്കാന് പറ്റുമായിരുന്നുള്ളൂ. ശരിക്കും പറഞ്ഞാല് സംഖ്യകളും, സാധാരണ ഉപയോഗിക്കുന്ന ആംഗലേയ അക്ഷരങ്ങളും ചിഹ്നങ്ങളും മാത്രമേ ശരിയായി കമ്പ്യൂട്ടറില് പ്രയോഗിക്കാന് സാധിക്കുമായിരുന്നുള്ളൂ അക്കാലത്ത്. ലോകത്ത് മനുഷ്യര് എഴുതാനും വായിക്കാനും ഉപയോഗിക്കുന്ന പതിനായിരക്കണക്കിനു അക്ഷരങ്ങളും ചിഹ്നങ്ങളും കൈകാര്യം ചെയ്യുവാന് കമ്പ്യൂട്ടറുകള്ക്ക് സാധിച്ചിരുന്നില്ല. എന്നു പറഞ്ഞാല് വിവിധപ്രദേശങ്ങളില് ജീവിക്കുന്ന മനുഷ്യര്ക്ക് അവരുടെ ഭാഷയില് പ്രമാണങ്ങള് സൃഷ്ടിക്കുകയോ, തിരുത്തുകയോ, മാറ്റിയെഴുതുകയോ, അച്ചടിക്കുകയോ ചെയ്യുക അസാധ്യമായിരുന്നു. ഈ സമസ്യകള്ക്കെല്ലാമുള്ള ഒരുത്തരമാണ് യുണിക്കോഡ്.
[തിരുത്തുക] എന്തുകൊണ്ട് യുണിക്കോഡ്
കമ്പ്യൂട്ടറിനുള്ളില് എല്ലാം സംഖ്യകളാണ്, അപ്പോള് അക്ഷരങ്ങളും ചിഹ്നങ്ങളുമൊക്കെ കമ്പ്യൂട്ടറിനുള്ളില് ശേഖരിക്കണമെങ്കില് അവയെ സംഖ്യാരൂപത്തില് ആക്കണം. അതിനുള്ള മാര്ഗമാണ് വിവിധ എന്കോഡിങ്ങ് സമ്പ്രദായങ്ങള്. ( കമ്പ്യൂട്ടറുകള് ബൈനറി സംഖ്യകളാണ് ആന്തരികപ്രവര്ത്തനങ്ങള്ക്ക് ഉപയോഗിക്കുന്നത്. ബൈനറി സമ്പ്രദായത്തില് രണ്ട് അക്കങ്ങളെയുള്ളൂ പൂജ്യവും ഒന്നും, അതിനാല് ശേഖരിച്ചു വയ്ക്കാന് എളുപ്പമാണ്, രണ്ട് അക്കങ്ങളേ ഉള്ളുവല്ലോ.) അതായത് അക്ഷരങ്ങളെ സംഖ്യകളായി രേഖപ്പെടുത്താം.
ഒരു സാധാരണ രീതി ഇതാണ്, 0 തൊട്ട് 255 വരെയുള്ള സംഖ്യകളുപയോഗിക്കുക (ഈ സംഖ്യകളുടെ ബൈനറി രൂപമാണുപയോഗിക്കുന്നത്) അപ്പൊ മൊത്തം 256 അക്ഷരങ്ങള് രേഖപ്പെടുത്തിവയ്ക്കാന് സാധിക്കും ഈ രീതിയില്. ഒരു ബൈറ്റ് ഉപയോഗിച്ചാണ് ഓരോ അക്ഷരവും രേഖപ്പെടുത്തുന്നത്. ഒരു ബൈറ്റ് എന്നാല് 8 ബിറ്റുകളുടെ ഒരു കൂട്ടമാണ്. എട്ടെണ്ണത്തെ സൂചിപ്പിക്കുന്നതിനാല് ബൈറ്റിന് ഒക്ടറ്റ് എന്നും പറയും.
ഉദാഹരണത്തിന് പൂജ്യം എന്ന് എഴുതണമെങ്കില് ‘ 00000000 ’ എന്നാണ് എഴുതുക ഒന്നിന് ‘ 00000001 ’ എന്നും രണ്ടിന് ‘ 00000010 ’ എന്നിങ്ങനെ ബൈനറിയില് ഒക്ടറ്റ് ആയി എഴുതാം.
എട്ട് ബിറ്റുകള് ഉപയോഗിച്ച് പരമാവധി 256 അക്ഷരങ്ങള് മാത്രമേ രേഖപ്പെടുത്തി വക്കാന് സാധിക്കൂ, കാരണം എട്ടു ബിറ്റുകള് കൊണ്ട് അടയാളപ്പെടുത്താന് പറ്റുന്ന ഏറ്റവും വലിയ ബൈനറി സംഖ്യ ഇതാണ് ‘ 11111111 ’ , ദശാംശ സംഖ്യാരീതിയില്(Decimal numbersystem) 255 ആണിത്.
ഏതുരീതി ഉപയോഗിച്ചായാലും അക്ഷരങ്ങളെ (characters) ഏതെങ്കിലും ഒരു സംഖ്യ ഉപയോഗിച്ചു രേഖപ്പെടുത്തുന്നതിന് ‘ ക്യാരക്ട്ര് എന്കോഡിങ്ങ് ‘ (character encoding) എന്നു പറയുന്നു, പ്രസ്തുത അക്ഷരങ്ങളുടെ സംഖ്യാരൂപത്തിന് ' ക്യാരക്ട്ര് കോഡ് ' (character code) എന്നും പറയുന്നു. ലോകത്തില് കുറെയധികം ക്യാരക്ടര് കോഡുകള് ഉപയോഗത്തിലുണ്ട്. മിക്ക ക്യാരക്ടര് എന്കോഡിങ് രീതികള്ക്കും ഒരു സാമ്യത ഉണ്ട്, 0 മുതല് 127 വരെ ഉള്ള സംഖ്യകള് ഒരേ അക്ഷരങ്ങളെയായിരിക്കും അടയാളപ്പെടുത്തുന്നത്. ഈ അക്ഷരങ്ങള് ആംഗലേയ അക്ഷരമാലയിലെ 26 അക്ഷരങ്ങള്, അവയുടെ വലിയക്ഷരങ്ങള് (Capital Letters), 0 തൊട്ട് 9 വരെയുള്ള സംഖ്യകള്, ചിഹ്നങ്ങള് എന്നിവയാണ്. 0 തൊട്ട് 127 വരെയുള്ള സംഖ്യകള് മാത്രം ഉപയോഗിച്ചുള്ള ക്യാരക്ടര് എന്കോഡിങ്ങ് രീതിക്ക് ആസ്കി (എ.സ്.സി.ഐ.ഐ - ASCII) എന്നു പറയുന്നു.
പക്ഷെ ആസ്കി ഉപയോഗിച്ച് തല്ക്കാലം ആംഗലേയഭാഷമാത്രമേ അടയാളപ്പെടുത്തുവാന് സാധിക്കൂ, ഉദാഹരണത്തിന് ഫ്രഞ്ചു ഭാഷയിലെ ചില അക്ഷരങ്ങള് (é , ô) രേഖപ്പെടുത്തുവാനുള്ള വിസ്താരം ആസ്കിക്കില്ല. ആ സ്ഥിതിക്ക് 127 നു മുകളിലോട്ട് സംഖ്യകളുള്ള ഒരു എന്കോഡിങ്ങ് രീതി ആവശ്യമാണ് കൂടുതല് അക്ഷരങ്ങള് അടയാളപ്പെടുത്തുവാനായി. ഇങ്ങനെ ഒരു സമസ്യ വന്നപ്പോള് ഉണ്ടാക്കപ്പെട്ട ഒരു ക്യാരക്ടര് എന്കോഡിങ്ങ് രീതിയാണ് ലാറ്റിന് 1 (Latin 1). ഈ രീതിയില് 0 തൊട്ട് 255 വരെയുള്ള സംഖ്യകളുപയോഗിച്ചാണ് എന്കോഡിങ്ങ് ചെയ്യുന്നത്, 0 തൊട്ട് 127 വരെ ആസ്കി അക്ഷരങ്ങള് തന്നെയാണ്, 128 തൊട്ട് 255 വരെയുള്ള സംഖ്യകളുപയോഗിച്ച് ആവശ്യമായ ലാറ്റിന് അക്ഷരങ്ങളും ചിഹ്നങ്ങളും അടയാളപ്പെടുത്തിയിരിക്കുന്നു. ഇവിടെയും പ്രശ്നങ്ങളുണ്ട് ലാറ്റിന് 1 ഉപയോഗിച്ച് പടിഞ്ഞാറന് യൂറോപ്പിയന് ഭാഷകളായ ആംഗലേയം, ഫ്രെഞ്ച്, സ്പാനിഷ്, ജര്മ്മന് എന്നീ ഭാഷാക്ഷരങ്ങള് മാത്രമേ രേഖപ്പെടുത്തുവാന് സാധിച്ചിരുന്നുള്ളൂ. മദ്ധ്യ-കിഴക്കന് യൂറോപ്പിയന് പ്രദേശങ്ങളിലെ ഭാഷകള്ക്കും, ഗ്രീക്ക്, സിറില്ലിക്, അറബിക്, എന്നീ ഭാഷകള്ക്കും വേണ്ടി ലാറ്റിന് 2 (Latin 2) എന്ന എന്കോഡിങ്ങ് രീതി നിലവിലുണ്ട്. ഏതെങ്കിലും ഒരു ഭാഷ ഉപയോഗിക്കുമ്പോള് ആ ഭാഷയിലെ അക്ഷരങ്ങളും ചിഹ്നങ്ങളും അടയാളപ്പെടുത്തിയിട്ടുള്ള എന്കോഡിങ്ങ് രീതി നാം തെരഞ്ഞെടുക്കണം. ക്യാരക്ടര് എന്കോഡിങ്ങ് രീതികള് ആവശ്യമനുസരിച്ച് മാറ്റുവാനുള്ള സംവിധാനം മിക്ക സോഫ്റ്റ്വെയറുകളിലും ഉണ്ട്.
പക്ഷെ പ്രശ്നം ഉണ്ടാവുക ഒരേ സമയത്ത് വിവിധ ഭാഷകള് ഉപയോഗിക്കേണ്ടി വരുമ്പോളാണ്. ഉദാഹരണത്തിന് ഫ്രഞ്ചും ഗ്രീക്കും ഒരു സ്ഥലത്ത് വേണമെന്നു കരുതുക, ഫ്രെഞ്ചിനെ പിന്താങ്ങുന്ന എന്കോഡിങ്ങ് രീതി ലാറ്റിന് 1 ആണ് എന്നാല് ഗ്രീക്ക് അക്ഷരങ്ങള് ലാറ്റിന് 2 എന്കോഡിങ്ങിലേ കാണുകയുള്ളൂ. ഒരേ പ്രമാണത്തില് രണ്ട് എന്കോഡിങ്ങ് രീതികള് ഉപയോഗിക്കാന് സാധ്യമല്ല, അപ്പോള് പിന്നെ 0 തൊട്ട് 255 വരെയുള്ള സംഖ്യകള് ഉപയോഗിച്ച് വിവിധ ഭാഷകള്ക്ക് വേണ്ടി വ്യത്യസ്ത എന്കോഡിങ്ങ് രീതികള് വികസിപ്പിക്കുന്നത് ശാശ്വതമല്ല എന്നു വേണം പറയാന്.
മറ്റൊരു പ്രശ്നം കൂടിയുണ്ട് കണക്കിലെടുക്കാന്, ചൈനീസ്, ജാപ്പനീസ് പോലുള്ള ഭാഷകളിലുള്ള അക്ഷരങ്ങളുടെ എണ്ണം വളരെക്കൂടുതലാണ്, 256 ല് അവ ഒതുങ്ങില്ല.
ഈ പ്രശ്നങ്ങള്ക്കുള്ള ഒരു പോംവഴി എല്ലാഭാഷകളിലേയും ഓരോ അക്ഷരവും ചിഹ്നവും, അനന്യമായ ഒരു സംഖ്യയാല് അടയാളപ്പെടുത്താന് പറ്റിയ ഒരു എന്കോഡിങ്ങ് രീതി വികസിപ്പിക്കുകയാണ്. ഈ സംഖ്യ ഏതെങ്കിലും ഭാഷയെയോ, ഫോണ്ടിനെയോ, സോഫ്റ്റ്വെയറിനെയോ, ഓപ്പറേറ്റിങ്ങ് സിസ്റ്റത്തെയോ, ഉപകരണത്തെയോ അടിസ്ഥാനപ്പെടുത്തിയുള്ളതാവില്ല. ഇതൊരു സാര്വത്രികമായ സംഖ്യയായിരിക്കും. ലോകത്തില് ഇപ്പോള് നിലവിലുള്ള എല്ലാ ഭാഷകളും ഉള്ക്കൊള്ളുന്നതും, അവയുടെ ഭാവിയില് വരാവുന്ന എല്ലാ ആവശ്യങ്ങള്ക്കും ഉതകുന്നതുമായിരിക്കണം ഇത്. ഈ പറഞ്ഞപ്രകാരമുള്ള ഒരു എന്കോഡിങ്ങ് രീതിയാണ് യുണിക്കോഡ്.
[തിരുത്തുക] യൂണീകോഡ് കണ്സോര്ഷ്യം
യൂണീകോഡ് കണ്സോര്ഷ്യത്തിന്റെ പ്രവര്ത്തനങ്ങള് സുതാര്യമാണ്. ഇതറിയാന് താല്പര്യമുള്ള സംഘടനകള്ക്കും വ്യക്തികള്ക്കും യൂണീകോഡ് ഡോട്ട് ഓര്ഗ് സന്ദര്ശിക്കുകയും ചര്ച്ചകളില് പങ്കെടുക്കുകയും ചെയ്യാം. യൂണീകോഡിന്റെ ചരിത്രം തൊട്ട് ഭാഷാ കമ്പ്യൂട്ടിംഗില് താല്പര്യമുള്ളവരെ സഹായിക്കുന്നതിനുള്ള വിവരങ്ങള് വരെ ഇതിലുണ്ട്. ചുരുക്കത്തില് ഭാഷാ കമ്പ്യൂട്ടിംഗ് മേഖലയില് എന്തെങ്കിലും ചെയ്യാന് ആഗ്രഹമുള്ളവര്ക്ക് ഒഴിച്ചുകൂടാനാവാത്ത സൈറ്റാണ് ഇത്.