Saturday, September 06, 2008

What is OCR technology?


அச்சிட்ட ஆவணங்களை டெக்ஸ்டாக மாற்றும் OCR தொழில் நுட்பம்

ஸ்கேனர் கொண்டு படங்களை ஸ்கேன் செய்து அவற்றை டிஜிட்டல் வடிவில் மாற்றிக் கொள்ளலாம் என்பது எல்லோரும் அற்ந்ததே. அதே போல் ஸ்கேனர் பயன்படுத்தி அச்சிடப்பட்ட அல்லது கையினால் எழுதப் பட்ட ஆவணங்களை ஸ்கேன் செய்து பின்னர் OCR தொழில் நுட்பத்துடன் edit செய்யக் கூடிய ஒரு டொகுயுமென்டாக மாற்றிக் கொள்ளவும் முடியும். ஆங்கிலத்தில் அச்சிடப்பட்ட ஆவணங்களை மீண்டும் டைப் செய்ய வேண்டிய தேவை ஏற்பட்டால் ஓ.சீ.ஆர் தொழில் நுட்பத்தைப் பயன்படுத்தி உடனடியாகவே அவற்றை ஸ்கேன் செய்து (editable text) ஆக மாற்றி விடலாம்.


Optical Character Recognition என்பதன் சுருக்கமே OCR. இது அச்சிட்ட அல்லது கையினால் எழுதப்பட்ட எழுத்துக்களை கணினியினால் அடையாளம் காணும் ஒரு தொழில் நுட்பமாகும். இச் செயற்பாட்டில் ஆவணத்தை ஒரு Bitmap இமேஜ் ஆக ஸ்கேன் செய்தல், ஸ்கேன் செய்ததை அடையாளம் காணல், அதனை ASCII போன்ற text code வடிவிற்கு மாற்றல் ஆகிய செயற்பாடுகளைக் கொண்டிருக்கும்.

அதேவேளை ஒரு புத்தகம் அல்லது சஞ்சிகையில் வெளிவந்த ஏதோவொரு ஆக்கமொன்றை எடிட் செய்யக் கூடிய ஆவணமாக மாற்ற வேண்டுமனால் ஒரு ஸ்கேனர் மட்டும் கொண்டு இதனை மாற்ற முடியாது. ஸ்கேனர் மூலம் இதனை ஒரு இமேஜ் பைலாக மாற்றிக் கொள்ளலாம். இவ்வாறு ஸ்கேன் செய்த அல்லது டிஜிட்டல் கேமரா மூலம் எடுக்கப்பட படத்திலிருந்து டெக்ஸ்டை வாசித்தறிய ஒரு ஓ.சீ.ஆர் மென்பொருளும் அவசியம். ஓ.சீ.ஆர் மென்பொருள் அந்த ஆவணத்திலிருந்து எழுத்துக்கள் ஒவ்வொன்றாக கண்டறிந்து சொல்லாகவும் வாக்கியமாகவும் மாற்றி விடுகிறது.

ஓ.சீ.ஆர் தொழில் நுட்பம் மூலம் ஸ்கேன் செய்த ஆவணம் மட்டுமன்றி பீ.டீ.எப் பைல், மற்றும் டிஜிட்டல் கேமரா முலம் எடுக்கப்பட்ட படங்களில் எழுத்துக்கள் இருக்குமானால் அவ்வெழுத்துக்களையும் ஓ.சீ.ஆர் மூலம் எடிட் செய்யக் கூடிய பைலாக மாற்றிக் கொள்ளலாம்

ஓ.சீ.ஆர் தொழில் நுட்பம் புத்தகங்களை டிஜிட்டல் வடிவிற்கு மாற்றவும் பாதுகாக்கவுமென நூலகங்களில் பெருமளவு பயன்படுத்தப்படுககிறது. அதேபோல் தபால் நிலையங்களில் தபால்களை வகைப்படுத்தல் மற்றும் வங்கிகளில் காசோலைகளை இனம் காணல் போன்ற செயற்பாடுகளுக்கும் பயன்படுத்தப் படுBறது.

எனினும் ஓ சீ.ஆர் தொழில் நுட்பத்ததின் மூலம் மாற்றப்படும் ஆவணம் நூறு வீதம் திருத்தமாக இருக்கும் என சொல்ல முடியாது. எனினும் காலப்போக்கில் இத்தொழில் நுட்பம் மேலும் வளரும் என எதிர் பார்க்கலாம்.

ஓ.சீ.ஆர் தொழிநுட்பம் கொண்ட பல மென்பொருள்கள் தற்போது பாவனைIலுள்ளன. அவற்றில் OmniPage, ABBYY FineReader, ParaVision, Recognita, ReadIris என்பவற்றை உதாரணமாகக் குறிப்பிடலாம். சில ஓ.சீ.ஆர் மென்பொருள்கள் ஸ்கேனர் வாங்கும் போதே இலவசமாகக் கிடைக்கும்.

ஓ.சீ.ஆர் மென்பொருள் மைக்ரோஸொப்ட் ஒபிஸ் தொகுப்பிலும் இணைந்தே வருகிறது. இவ்வசதி தற்போது ஆங்கிலம் உட்பட ஒரு சில மொழிகளுக்கே கிடைக்கிறது.

MS-Office XP / 2003 யுடன் வரும் ஓ.சீ.ஆர் மென்பொருளை Start  Programs  MS-Office Tools  MS-Office Document Scanning என்பதைத் தெரிவு செய்வதன் மூலம் இயக்கலாம். ஸ்கேன் செய்த பின்னர் அதனை நேரடியாக அங்கிருந்தே MS-Word க்குள் நுழைத்து விடலாம்.

ABBYY FineReader எனும் ஓ.சீ.ஆர் மென்பொருள் மூலம் ஆவணத்தை ஸ்கேன் செய்தல், எழுத்துக்களைக் கண்டறிதல், நீங்கள் விரும்பும் வடிவில் சேமித்துக் கொள்ளல் என மூன்றே படிகளில் இலகுவாக மாற்றிக் கொள்ளலாம். மாற்றிய பைலை DOC, RTF, XLS, PDF, HTML, TXT என பல்வேறு பைல் வடிவங்களில் சேமிக்கவும் முடியும்.

அதேபோல் தமிழில் அச்சிடப்பட்ட ஆவணங்களை ஓசீஆர் முறைப்படி டெக்ஸ்டாக மாற்றிக் கொள்ள “பொன்விழி” எனும் மென்பொருள் உதவுகிறது. பொன்விழி பற்றி மேலுமொரு ஐ.டி வலத்தில் பார்க்கலாம்.

-அனூப்-

Reactions: