Sunday, June 15, 2008

പദമുദ്ര - പ്രവർത്തനം ആരംഭിച്ചു.

പ്രിയപ്പെട്ട സുഹൃത്തുക്കളെ,

കുറച്ചു വർഷങ്ങളായി പലരും ആഗ്രഹിച്ചിരുന്ന ഒരു സംവിധാനമാണു് ഒരു online മലയാള ഭാഷ നിഘണ്ടു വേണം എന്നത്. എന്റെ മലയാള ഭാഷാ പരിജ്ഞാനം വച്ച് ഈ ജന്മം അത് സാദ്ധ്യമാവില്ല എന്ന് എനിക്ക് നല്ല ബോധം ഉണ്ടായിരുന്നു. പലരോടും പലതവണ ഈ ആവശ്യത്തെക്കുറിച്ച് ചർച്ച ചെയ്തെങ്കിലും ഫലം ഉണ്ടായില്ല. കൂട്ടത്തിൽ യാദൃശ്ചികമായാണ് ഞാൻ ബ്ലോഗിൽ സിദ്ധാർത്ഥൻ എന്നറിയപ്പെടുന്ന സജിത്ത് യൂസുഫിനോട് ഈ കാര്യം ചർച്ച ചെയ്തത്. അപ്പോഴാണ് അറിഞ്ഞത് അദ്ദേഹവും ഈ ആഗ്രഹം കൊണ്ടു നടക്കാൻ തുടങ്ങിയിട്ട് കാലമേറയായി എന്ന വിവരം. സാധാരണ 10ഉം 20ഉം വർഷം സമയം കൊണ്ടാണു് ഒരു നിഘണ്ടു ഉണ്ടാകുന്നത്. അതിലും വേഗത്തിലും ആഴത്തിലും ഇന്റർനെറ്റിലൂടെ മലയാള ഭാഷ അറിയാവുന്നവരുടെ സഹകരണത്തിലൂടെ ചിലപ്പോൾ അഞ്ചോ ആറോ വർഷം കൊണ്ട് ഇത് സാദ്ധ്യമായേക്കാം.

പക്ഷെ അതിനു് ആവശ്യമുള്ള ഒരു software വേണം. പരിമിതമായ എന്റെ PHP/MySQL അറിവിന്റെ വെളിച്ചത്തിൽ ഞാൻ എന്നാൽ കഴിയുന്നതു് ചെയ്യാം എന്ന് ഏറ്റു. ഒരു മാസം മുമ്പ് ഞങ്ങൾ ഇതിന്റെ ഒരു പ്രവർത്തന രൂപവും, വിവരശേഖരണ സംവിധാനവും രൂപകല്പന ചെയ്തു. അങ്ങനെ പദമുദ്രയുടെ പ്രവർത്തനം ആരംഭിച്ചു.

ഇന്റർനെറ്റിൽ ഇത് ആദ്യമല്ല മലയാള നിഘണ്ടു. സമൂഹികമായി തിരുത്താവുന്ന wiktionary യുടെ ചില അടിസ്ഥാന സംവിധാനങ്ങൾ പദമുദ്രയിലും സ്വീകരിച്ചിട്ടുണ്ട്. എന്നാൽ Wiktionaryയിൽ ഇല്ലാത്ത പല സവിശേഷതകളും പദമുദ്രയിലുണ്ടു്.

1) ഒരു പരിശീലനവുമില്ലാതെ തന്നെ എളുപ്പത്തിൽ പദമുദ്രയിൽ പദങ്ങളും അർത്ഥങ്ങളും എഴുതി ചേർക്കാം. wiktionaryയിൽ എഴുതുന്നതു് അത്ര എളുപ്പമല്ല.

2) ഒരു നിഘണ്ടു എന്നാൽ വിജ്ഞാന കോശമല്ല. അതിനു് കൃത്യമായ ചില ക്രമങ്ങളും ചട്ടങ്ങളുമുണ്ട്. അർത്ഥങ്ങളുടെ വിശദീകരണങ്ങൾക്ക് വ്യക്തമായ സ്ഥാനവും, സമ്പ്രദായങ്ങളുമുണ്ടു്. സ്വാതന്ത്ര്യത്തിനു് മുന്‍‌തൂക്കം കൊടുക്കുന്ന Wiktionaryയിൽ അർത്ഥതരങ്ങൾക്കും, ചട്ടങ്ങൾക്കും, സമ്പ്രദായങ്ങൾക്കും കൃത്യമായ സ്ഥാനങ്ങളില്ല. ഇതിന്റെ അഭാവത്തിൽ അർത്ഥങ്ങൾക്കും പദങ്ങൾക്കും അച്ചടക്കമില്ലാതെയാകും. എവിടെ വേണമെങ്കിലും എങ്ങിനെ വേണമെങ്കിലും എഴുതി ചേർക്കാം. ആർക്ക് വേണമെങ്കിലും എഴുതി ചേർക്കാം. പദമുദ്രയിൽ അംഗം എഴുതുന്ന അർത്ഥം മറ്റൊരംഗത്തിനു് തിരുത്താൻ അവകാശമില്ല. മറിച്ച് നിയമിക്കപ്പെട്ട editor മാർക്ക് തിരുത്താം.

3) പദമുദ്രയിൽ അജ്ഞാതരായവർക്കു് തിരുത്താൻ അവകാശമില്ല. wiktionaryയിൽ അംഗമല്ലാത്തവർക്കും തിരുത്താം.

4) സ്വതന്ത്രമായും, സൌജന്യമായും ചേർക്കുന്ന ഈ വിവരങ്ങൾ ഒരു സംഘത്തിന്റെയും സ്വത്തല്ല. കൊടുക്കുന്ന വിവരങ്ങൾ സൌജന്യമായി തന്നെ കൊടുക്കുന്നവന് ആവശ്യാനുസൃതം തിരിച്ചെടുക്കാനും ഉപയോഗിക്കാനും അവകാശമുണ്ട്. അറിഞ്ഞിടത്തോളം wiktionaryയിൽ നിന്നും എല്ലാ തിരുത്തലുകളും ഉൾപെടുന്ന RSS Feed ആയി തിരിച്ചെടുക്കാൻ കഴിയില്ല. പദമുദ്രയിൽ എല്ലാ ദിവസവും RSS Feed പ്രസിദ്ധീകരിക്കുന്നുണ്ട്. ഇവ GNU license പ്രകാരം, സാമ്പത്തിക ലാഭമില്ലാത്ത സൌജന്യ ആവശ്യങ്ങൾക്കു് ഉപയോഗിക്കാവുന്നതാണു്.

'പദമുദ്ര' ഇപ്പോഴും രൂപാന്തരപ്പെട്ടുകൊണ്ടിരിക്കുന്ന ഒരു നിഘണ്ടുവാണു്. ചില സവിശേഷതകൾ ഈ postന് ശേഷവും പ്രവർത്തിച്ചു തുടങ്ങി എന്നുവരാം.

അർത്ഥ വിവരണം:
പദമുദ്ര ഭാവിയിൽ ഒരു സമ്പൂർണ്ണ ഭാഷാ നിഘണ്ടു ആയി മാറാവുന്ന തരത്തിലാണു രൂപകല്പന ചെയ്തിരിക്കുന്നത്.
പദങ്ങളും അർത്ഥങ്ങളും വെവ്വേറെയായാണു ശേഖരിക്കുന്നത്. ഇതിന്റെ പ്രധാന കാരണം, ഒരു പദത്തിനു് ഒന്നിലധികം വിഭാഗങ്ങളിൽ പെട്ട ഒന്നിലധികം അർത്ഥങ്ങൾ ഉണ്ടാകാം എന്നതിനാലാണു്.
അർത്ഥങ്ങളെ വിവരിക്കാനായി, 14 പ്രദേശങ്ങളും, 113 അർത്ഥ തരങ്ങളും, 25 ഉല്പത്തികളും ഉൾപെടുത്തിയിട്ടുണ്ട്. കൂടാതെ അർത്ഥങ്ങളോടൊപ്പം പദച്ഛേദം, ആംഗലേയ അർത്ഥം, പര്യായപദങ്ങളും, വിപരീതപദവും, എതിർലിംഗവും, മറ്റു വിവരങ്ങളും ശേഖരിക്കാവുന്നതാണു്.

ചർച്ച:
ഓരോ അർത്ഥത്തെ കുറിച്ചു് വേണമെങ്കിൽ അംഗങ്ങൾക്ക് ചർച്ച ചെയ്യാനും സവിധാനമുണ്ട്.

ഞങ്ങൾ ചില സുഹൃത്തുക്കളെ ഈ വിവരം ആദ്യം തന്നെ അറിയിച്ചിരുന്നു. പലരും സന്തോഷത്തോടെ മുന്നോട്ട് വന്ന് പദങ്ങളും അർത്ഥങ്ങൾ ചേർത്ത് തുടങ്ങി. മലയാളം ബ്ലോഗിൽ പരസ്യമായി വിളമ്പരം എന്തുകൊണ്ടു കൊടുത്തില്ല എന്നു് പലരും പരാതി പറഞ്ഞു. ഇതിനുള്ള കാരണം പലതാണു്.

1) ഇതിന്റെ പിന്നിൽ പ്രവർത്തിക്കുന്ന backend software ഇപ്പോഴും പൂർത്തിയായിട്ടില്ല.
2) 'പദമുദ്ര'യിൽ ഇപ്പോൾ പദങ്ങൾ വളരെ പരിമിതമാണു്. ഈ പദ്ധതിയെ കുറിച്ച് ഒരു മുൻധാരണ ഇല്ലാത്ത ഒരു സന്ദര്‍ശകൻ 'പദമുദ്ര' സന്ദര്‍ശിച്ചാല്‍, പദങ്ങളുടെ ദൌർലഭ്യം മൂലം നിരുത്സാഹപ്പെടരുത് എന്നു് ഞങ്ങൾക്ക് നിർബന്ധമുണ്ടായിരുന്നു.
3) ഏറ്റവും പ്രധാനപ്പെട്ട കാരണം: ഒരു തുറന്ന വിളമ്പരം ഉണ്ടാകുമ്പോൾ ഈ പദ്ധതിയുമായി സഹകരിക്കാൻ നല്ലവരായ അനേകം സുഹൃത്തുക്കൾ മുന്നോട്ട് വരും എന്നു് ഞങ്ങൾക്ക് ഉറപ്പുണ്ടായിരുന്നു. എന്നാൽ ഇവർ എഴുതുന്ന പദങ്ങളും അർത്ഥങ്ങളും പരിശോധിച്ച ശേഷം അംഗീകരിക്കാൻ വേണ്ടത്ര തിരുത്തലുകാർ (editors) ഇല്ല. ഇപ്പോൾ തന്നെ 1000ത്തിനു മുകളിൽ അർത്ഥങ്ങൾ 'പദമുദ്രയിൽ' അംഗീകാരം കാത്ത് കിടക്കുന്നുണ്ട്.

പദങ്ങളും അർത്ഥങ്ങളും എഴുതി ചേർക്കാനും, എഴുതി ചേർത്തവ തിരുത്താനും മലയാള ഭാഷ അറിയാവുന്നവർ മുന്നോട്ട് വരണം എന്നു് അഭ്യർത്ഥിക്കുന്നു.

അവസാനമായി പറയാനുള്ള ഒരു കാര്യം:

ഇത് കൈപ്പള്ളി എഴുതി ഉണ്ടാക്കിയ നിഘണ്ടു അല്ല. ഇതു് മലയാള ഭാഷയെ സ്നേഹിക്കുന്നവരുടെ നിഘണ്ടുവാണു്. ഈ നിഘണ്ടുവിന്റെ മെച്ചം അതിൽ എഴുതപ്പെടുന്ന വിവരങ്ങളുടെ മെച്ചം അനുസരിച്ചിരിക്കും. ഇതിന്റെ credit മലയാള സമൂഹത്തിന്റേതാണ്, വ്യക്തികൾക്കല്ല. ദയവായി ഈ postന്റെ commentകളിൽ വ്യക്തി പ്രശംസകൾ ഒഴിവാക്കുക.

ഈ പദ്ധതി മലയാള on-line സമൂഹത്തിന്റെ ഒരു വിജയമായി തീരും എന്ന ശുഭാപ്തി വിശ്വാസത്തോടെ നിങ്ങളുടെ സുഹൃത്ത്.

കൈപ്പള്ളി.

16 comments:

  1. പദങ്ങളുടെ സാമ്രാജ്യം വളരട്ടെ....
    അര്‍ത്ഥങ്ങള്‍ തേടി അലയുന്നവരുടെ
    അക്ഷയഖനിയാകട്ടെ ഈ സാമാജ്യം ....
    അക്ഷരസാമ്രാജ്യം കെട്ടിപ്പടര്‍ത്തുന്ന
    അക്ഷരയോദ്ധക്കളെ,,,,
    അഭിവാദ്യങ്ങള്‍ ....
    ആശംസകള്‍ !!!
    (ഇനി മുതല്‍
    അക്ഷര പിശാചിനേയും
    അര്‍ത്ഥ പിശാചിനേയും പേടിക്കാതെ എഴുതാം )

    ReplyDelete
  2. പദമുദ്രക്ക് പിന്നില്‍ പ്രവര്‍ത്തിക്കുന്ന എല്ലാവര്‍ക്കും ആശംസകള്‍...
    എന്നാല്‍ കഴിയുന്നവ ചെയ്യണമെന്ന് ഞാനും ആഗ്രഹിക്കുന്നു.

    ReplyDelete
  3. നല്ല സംരംഭം. നന്നായി വരട്ടേ.

    ഒന്നു രണ്ട്‌ സജഷനുകൾ:
    - ഇതിൽ നിന്ന് നേരിട്ടുവാക്കുകൾ എല്ലാം കൂടി XML ആയി പ്രയാസമുണ്ടാവുമോ?
    - ഇതിൽ നിന്ന്‌ wiktionary-ലേയ്ക്കും അവിടേ നിന്നും import/export സാധ്യമാവുക. എഫർട്ടുകൾ വിഘടിച്ചുപോകുന്നത്‌ നന്നല്ല. വിക്ഷ്ണറിയിൽ സ്ഥിരമായി വാക്കുകൾ ചേർക്കുന്ന കുറച്ചുപേരെങ്കിലും ഉണ്ട്‌.

    ReplyDelete
  4. ഡിക്ഷണറി എടുത്തു റ്റൈപ്‌ ചെയ്താൽ മതിയെങ്കിൽ നാട്ടിൽ ഡീറ്റിപ്പീ ക്കാരെ എൽപിച്ചാൽ പണി നടക്കും .. ഇല്ലെങ്കിൽ urban dictionary പോലെ ഒരു ഫീച്ചർ ഉണ്ടെങ്കിൽ കുറെക്കൂടി യൂസേർസ്സ്‌ ഉണ്ടാവും ഈയിടെ ഒരു അമേരിക്കൻ മലയാളി പെൺകുട്ടി എന്നോടു ഗുണ്ടുമണിയുടെ അർത്ഥം ചോദിച്ചു.. അവളെ മറ്റൊരു പയ്യൻ ഗുണ്ടുമണി എന്നു വിളിച്ചു അതിനു അവനേ ഇംഗ്ലീഷിൽ തെറി പറയണ്ട കാര്യമുണ്ടോ എന്നതാണൂ യൂസ്‌ കേസ്‌ :-)

    ReplyDelete
  5. സിബു.

    Wiktionary യുടെ പ്രധാന പ്രശ്നം അതു് ഒരു Wiki ആണെന്നുള്ളതാണു്. There is no preformated syntax, nor structure to the content. It is essentially free form data that gives the illusion of structure by using templates. ഈ രീതി ഒരു വിജ്ഞാന കോശത്തിനു് അന്യോജ്യമായിരിക്കാം, Post processing ചെയ്യാനുള്ള വിവരങ്ങൾക്കു് പ്രയോജനപ്പെടും എന്നു് എനിക്ക് അഭിപ്രായമില്ല.

    Regarding exporting RSS feed:
    മലയാള അക്ഷരങ്ങളുടെ ക്രമത്തിലാണു് ഇപ്പോൾ Feed എഴുതുന്നുണ്ട്. ഇതിന്റെ schema ഇതെങ്ങനെ ആയിരിക്കണം എന്നു് പലവെട്ടം പലരോടും ചോദിച്ചു നോക്കി, ആരും വ്യക്തമായ ഒരു നിർദ്ദേശവും തന്നില്ല. എനിക്ക് അറിയാവുന്ന വിധത്തിൽ ഇപ്പോൾ RSS publish ചെയ്യുന്നുണ്ടു്. ഇനി ഇത് എങ്ങനെ മാറ്റണം എന്നു് വ്യക്തമായി ഒരു schema തന്നാൽ അതുപോലെ പ്രസിദ്ദീകരിക്കുന്നതായിരിക്കും.

    Wikiയിലേക്ക് ഈ നിഘണ്ടു മാറ്റുന്നതിൽ എതിർപ്പൊന്നുമില്ല. പക്ഷെ wiki ഒരു കടലാണു്. കൊണ്ടിട്ടാൽ തിരിച്ചെടുക്കാൻ എളുപ്പമല്ല. കൊടുക്കുന്ന data recordന്റെ idയും schemaയും അനുസരിച്ച് തിരിച്ചു് ഒന്നും കിട്ടുകയില്ല. ഉദാഹരണത്തിനു്, ഒരു പദവും അതിന്റെ നാലോ അഞ്ചോ അർത്ഥങ്ങളും ഉൾപെടുന്ന ഒരു data record wiktionaryയിൽ കൊടുത്താൽ നാളെ അതിൽ മാറ്റം സംഭവിച്ചാൽ അത് പദമുദ്രയിലേക്ക് തിരിച്ച് കിട്ടാൻ നിലവിൽ യാതൊരു മാർഗ്ഗവും ഇല്ല.

    Essentially data in wiktionary is functionally useless for post processing. Since there is no implicit structure to the data.

    പദമുദ്രയുടെ ഉദ്ദേശം ചുമ്മ പദങ്ങളുടെ അർത്ഥം നോക്കുക മാത്രമല്ല. അടുത്തു തന്നെ spell checkingഉം Grammar checkingഉം നിർമിക്കാനുള്ള അടിസ്ഥാനമായിട്ടാണു ഇതു് നിർമ്മിച്ചിരിക്കുന്നത്.

    So to answer your question. There is absolutely no effort lost, since all the effort put into producing content in wiktionary is essentially useless to padamudra, due to its lack of structure. Everything in padamudra is structured. There is no room for free-form data.

    ReplyDelete
  6. സ്റ്റ്രക്ചർ/സ്കീമ ഇല്ലാത്തതാണു പ്രശ്നമെങ്കിൽ ഇതു നോക്കൂ..
    http://www.w3.org/TR/rdf-concepts/
    ആർ.എസ്സ്‌.എസ്സ്‌ സിന്റിക്കേട്റ്റഡ്‌ കണ്ടന്റിനാണൂ.. RDF ആർ.എസ്സ്‌.എസ്സ്‌ പൊലെയുള്ള സ്കീമകളെ ഡിഫൈൻ ചെയ്യാൻ ഉപയോഗിക്കാം

    ReplyDelete
  7. Great effort – long going.
    Thanks to you.
    You makes me and others proud to be mallu

    ReplyDelete
  8. അഭിനന്ദനീയമായ ഉദ്യമം. എല്ലാ ഭാവുകങ്ങളും പിന്തുണയും നല്‍കുന്നു മാഷേ..

    അല്‍പ്പം തിരക്കായതിനാല്‍ ഈ പ്രൊജക്ടുമായി സഹകരിക്കാന്‍ കുറച്ചു സമയം കൂ‍ടി തരിക..ശ്രീകണ്ഠേശ്വരം ജിയുടെ ശബ്ദതാരാവലി സ്വന്തമായി ഉള്ള ഒരു വ്യക്തി എന്ന നിലയില്‍ എന്നാല്‍ ആവുന്നത് ഞാന്‍ ചെയ്യാം..

    (പിന്നെ ഒരു മലയാളം ഇംഗ്ലീഷ് തര്‍ജ്ജമ കൂടി ഉണ്ടായാല്‍ വളരെ നന്ദി. ‘മജ്ജ’യുടെ ഇംഗ്ലീഷ് നെറ്റില്‍ ഒരുപാട് തപ്പി പക്ഷേ കിട്ടിയില്ല എന്ന് ഒരു സുഹൃത്ത് ഈയിടെ പരാതി പറഞ്ഞത് ഓര്‍ക്കുന്നു)

    ReplyDelete
  9. വിക്ഷ്ണറിക്കാരുമായി ചേർന്ന് അവിടെയുള്ള എന്റ്ര്യ്‌കൾക്ക്‌ ഒരു ഓർഡർ തീരുമാനിക്കാവുന്നതുമാണല്ലോ. പദമുദ്രയും വിക്ഷ്ണറിയും തമ്മിൽ എക്സ്ചേഞ്ച്‌ നടക്കുക എന്നത്‌ രണ്ടുപേരുടേയും മ്യൂച്വൽ ഇന്ററസ്റ്റിലാണ്‌. പദമുദ്ര ഡാറ്റ ലോക്ക്‌ ചെയ്യുന്ന മറ്റൊരു സിസ്റ്റമല്ല എന്ന്‌ ഉറപ്പാക്കണമെങ്കിൽ അതിന്‌ ഒരു xml എക്സ്പോർട്ട്‌ മെക്കാനിസം ഉണ്ടായേ തീരൂ. GPL കൊണ്ടായില്ല.

    ReplyDelete
  10. തീർച്ചയായും ഇത്തരം ഒരു ഡിക്ഷ്ണറിയുടെ ആവശ്യം മലയാളത്തിലുണ്ട്. മഷിത്തണ്ട് പോലുള്ള ചില നിഘണ്ടു ഇപ്പോൾ ലഭ്യമാണെങ്കിലും ചില വാക്കുകൾ തപ്പിയാൽ അതിലും കിട്ടാറില്ല.

    ശ്രീ. മനു ചൂണ്ടിക്കാട്ടിയപോലെ ശബ്ദതരാ‍വലിയോ അതുപോലെയുള്ള ഏതെങ്കിലും ഒരു പ്രിന്റ് ഡിക്ഷ്ണറിയിൽ നിന്നും വാക്കുകൾ ഇതിലേയ്ക്ക് ചേർക്കുന്നതിനു നിയമ (കോപ്പിറൈറ്റിന്റെ യും വൈലേഷന്റെയും ഒക്കെ കാലമാണല്ലോ?) പ്രശ്നങ്ങളുണ്ടോ?.

    ReplyDelete
  11. cibu cj
    ആദ്യം പദമുദ്രയിൽ ഒന്നു പോയി നോക്കുക, എന്നിട്ട് പറയൂ അവിടെ XML ഉണ്ടോ ഇല്ലയോ എന്നു്.

    ReplyDelete
  12. Cibu
    ഞാൻ കരുതി ഇതാണു XML എന്നു. ഇനി XML എന്നു പറയുന്നത് വേറെ എന്തെങ്കിലും പുതിയ സാദനമാണോ ?

    ReplyDelete
  13. RSS ഐക്കൺ കണ്ടതുകൊണ്ടാണു് അതിൽ ക്ലിക്ക്‌ ചെയ്യാതിരുന്നത്‌. തന്നിരിക്കുന്ന XML ഫയലുകളിൽ RSS-നെ ഹാക്ക്‌ ചെയ്ത്‌ കയറ്റിയിരിക്കുകയാണല്ലോ. അതുപാടില്ല. ഗുണാളൻ പറഞ്ഞപോളെ RDF-നെ പറ്റി ചിന്തിക്കൂ. അല്ലെങ്കിൽ വേറേ എന്തെങ്കിലും സ്റ്റാന്റേഡ്‌ ഉണ്ടാവേണ്ടതാണ്‌. കണ്ടെത്തിയാൽ അറിയിക്കാം. എന്തായാലും RSS ഹാക്ക്‌ പറ്റില്ല. മാത്രവുമല്ല; എല്ലാം കൂടി ഒരൊറ്റ ഫയലായുള്ള ഡൗൺലോഡ്‌ ആണ്‌ എന്റെ ആഗ്രഹം. നന്ദി.

    ReplyDelete
  14. ഇപ്പോൾ കണ്ടത്‌:
    http://en.wikipedia.org/wiki/XDXF
    http://xdxf.revdanica.com/drafts/logical/05a/XDXF_manual.html

    ReplyDelete
  15. നല്ല ആശയം. ഭാവുകങ്ങള്‍ !!!

    ReplyDelete

ഇതെല്ലാം വായിച്ചിറ്റ് ഒന്നും പറയാനില്ലി?
ഇതിനെപറ്റി എന്തരെങ്കിലുമെക്ക പറ..