Friday, 9 October 2015

கூகுள் எழுத்துணரி



என்றோ அச்சிடப்பட்ட பழைய நூல் ஒன்று மறு அச்சுக்கு வருகிறது; அல்லது ஓர் ஆவணம், பிடிஎஃப் வடிவில் அல்லது படத்தின் (image) வடிவில் இருக்கிறது, அதைப் படித்துப் பார்த்து திருத்தம் செய்ய வேண்டும் என்று வைத்துக்கொள்வோம். இவை ஆங்கிலத்தில் இருந்தால் கவலைப்பட ஏதுமில்லை.

ஓ.சி.ஆர். (OCR) எனப்படும் ஆப்டிகல் கேரக்டர் ரெகக்னிஷன் – எழுத்துணரி மென்பொருளைப் பயன்படுத்தி, படத்தில் இருப்பதை எழுத்துவடிவ உரைகளாக மாற்றிக்கொள்ளலாம். இப்போதெல்லாம் ஸ்கேனர்கள் வாங்கும்போது இலவசமாகக் கிடைக்கும் மென்பொருட்களில் எழுத்துணரி மென்பொருளும் இலவசமாகவே கிடைக்கிறது. இதைப் பயன்படுத்தும்போது, படத்தில் உள்ள எழுத்துகள் எந்த அளவுக்கு தெளிவாக உள்ளதோ அந்த அளவுக்கு பிழைகள் குறைவாக உரைவடிவில் எடுக்க முடியும். பொதுவாக 85 முதல் 90 சதவிகிதம் சரியாக இருக்கும். பிறகு பிழைகளைத் திருத்திக் கொள்ளலாம். அல்லது, Abbey Finereader போன்ற தரமான எழுத்துணரி பயன்படுத்தி, 98 சதவிகிதம் வரை பிழையின்றி எழுத்துவடிவில் பெற முடியும். ஆனால் தமிழில்....?

மைய அரசு சில ஆண்டுகளுக்கு முன்னால் எல்லா மொழிகளிலும் கணினிக்கேற்ற பல மென்பொருட்களை உருவாக்கி குறுந்தகடுகளாக வெளியிட்டது. இது உண்மையில் பயன் தரும் நோக்கமாக அல்லாமல், வெறும் விளம்பர நோக்கத்தை மட்டுமே கொண்டிருந்தது. எனவே பெரும்பாலான மென்பொருள்கள் காலாவதி ஆனவை. இன்றைய யுனிகோட் வடிவுக்குப் பொருந்தாதவை. சிறிது காலத்தில் அத்திட்டமும் கிடப்பில் போடப்பட்டது. அந்தக் குறுந்தகட்டிலும் ஓசிஆர் மென்பொருள் ஒன்று இருந்த்தாக நினைவு. ஆனால் வெற்றிகரமாக அது செயல்படவில்லை.

சென்னையில் பொன்விழி என்று ஒரு மென்பொருள் இருப்பதாக தகவல்கள் காட்டுகின்றன. ஆனால் அந்த நிறுவனத்தின் தளத்தில் அதைக் காணவில்லை. அப்படியே கிடைத்தாலும் அதை விலை கொடுத்து வாங்க வேண்டும். ஒருமுறை விலைக்கு வாங்கி கணினியில் நிறுவிய பிறகு, நமது கணினியின் ஹார்ட் டிஸ்க்கை அழித்து எழுதி விட்டால் மீண்டும் நிறுவும்போது மீண்டும் விலை கொடுக்க வேண்டியிருக்கும்.

அரசு சார்ந்து சில நிறுவனங்கள் தமிழ் எழுத்துணரி மென்பொருள் தயாரிப்பில் ஈடுபட்டிருப்பதாக பல ஆண்டுகளாகவே செய்திகளைப் பார்த்து வருகிறேன். ஆனால் இதுவரை பயனுள்ளதாக ஏதும் கிடைக்கவில்லை.

http://www.i2ocr.com/free-online-tamil-ocr என்று ஒரு வலைப்பக்கம் இருக்கிறது. இதில் மிகச் சிறிய அளவில் படங்களைப் பதிவேற்றினால் எழுத்துகளாக மாற்றித் தருகிறது. ஆனால் இந்தச் சிறிய படத்துக்கும் ஏகத்துக்கு பிழைகளோடு மாற்றித் தருகிறது. சான்றாக, கீழே இருக்கும் படத்தையும் அதன் கீழே இருக்கும் உரையையும் பார்க்கலாம். பிழைகள் மட்டுமல்ல, வரிகளும் தனித்தனியாக வரும்.


அவருக்குக் கறுப்புக் டுகஈடி கஈட்டினஈர்கள். ஜளுலை மஈதம் முன்றஈம'
வரீரத்தில' வட்டருமனஜ மகஈநரட்டு உறுப்பிளர்சுளின் டுபயர்கள் அறிவிக்சுப்
பட்டன, மகஈத்மஈ சுஈந்தி, ஜின்னஈ, ஸப்ரு, ஆகிகீயரீருடன் அம்பிபதகரும்
அனழக்கப்பட்டிருநதஈரீ, இய்முனற அவர் சஉட்டஈட்சி அனமப்புக' குழு உறுப்
பினர் என்ற முனறயில' கீசர்க்கப்பட்டிருந்தஈர். இந்திய அரசியலனமப்புச்
சட்டத்தின் முன்வனரவு தயஈர் கிசய்யும் கீவளை இக்குழுவினரிடம் தரப்
பட்டிருற்தது' '

ஆக, இது பயன் தரவில்லை. வெற்றிகரமாகச் செயல்படக்கூடிய எழுத்துணரி எனக்கு தொழில்முறையாகத் தேவைப்படுகிறது என்பதால் பல காலமாகவே தேடலில் இருந்தேன். Tesseract என்ற பெயரிலும் ஒரு மென்பொருள் கிடைக்கிறது. வெளிநாட்டில் வசிக்கும் ஒரு தோழி, அது சிறப்பாகச் செயல்படுவதாகத் தெரிவித்தார். நானும் முயற்சி செய்து பார்த்தேன். இதில் ஸ்கேனரையும் Tesseract மென்பொருளையும் டிரெயின் செய்ய வேண்டும். தொழில்நுட்பம் தெரிந்தவர்களுக்கு அது பயன் தரக்கூடும். எனக்கு அவ்வளவு திறமை கிடையாது.

அதிர்ஷ்டவசமாக, சில நாட்களுக்கு முன் மலைகள் டாட் காம் தளத்தில் ஒரு கட்டுரை படித்தேன். கூகுள் டிரைவ் தளத்தில் எழுத்துணரி வசதி இருப்பதாக அந்தக் கட்டுரை காட்டியது. உடனே சோதித்துப் பார்த்தேன். மேலே காட்டப்பட்ட அதே படத்தின் முழுப் பக்கத்தையும் கூகுள் டிரைவ் எழுத்துணரியில் முயற்சி செய்தேன். கீழ்க்கண்டவாறு மாற்றிக் கொடுத்தது.


அவருக்குக் கறுப்புக் கொடி காட்டினார்கள். ஜூலை மாதம் மூன்றாம் வாரத்தில் வட்டமேஜை மகாநாட்டு உறுப்பினர்களின் பெயர்கள் அறிவிக்கப் பட்டன. மகாத்மா காந்தி, ஜின்னா, ஸப்ரு ஆகியோருடன் அம்பேத்கரும் அழைக்கப்பட்டிருந்தார். இம்முறை அவர் கூட்டாட்சி அமைப்புக் குழு உறுப் பினர் என்ற முறையில் சேர்க்கப்பட்டிருந்தார். இந்திய அரசியலமைப்புச் சட்டத்தின் முன்வரைவு தயார் செய்யும் வேலை இக்குழுவினரிடம் தரப் பட்டிருந்தது. - அம்பேத்கர் நியமிக்கப்பட்ட செய்தி பரவியதும் உள்நாட்டிலிருந்தும் வெளிநாட்டிலிருந்தும் பாராட்டுகள் தொடர்ச்சியாக வந்து குவிந்தன. அம்பேத்கரை வழக்கமாக எதிர்த்தெழுதும் பத்திரிகையான குலாபா சமாச்சார் கூட சிர்னேர் வழக்கு, சைமன் கமிஷன், வட்டமேஜை மகாநாடு ஆகிய சூழ்நிலைகளில் அவர் வெளிப்படுத்திய தேசிய உணர்வைப் பாராட் டியது. இண்டியன் டெய்லி மெயில், ஸண்டே கிரானிகிள், கேசரி ஆகிய செய்தித்தாள்களும் அவரது நியமனத்தை வரவேற்றன. - இரண்டாவது வட்டமேஜை மகாநாட்டில் மகாத்மா காந்தி பங்கு கொள்வது நிச்சயமில்லாமலிருந்தது. அம்பேத்கரின் கோரிக்கைகளின் பின்ன ணிையைப் புரிந்து கொள்வதற்காக மகாத்மா காந்தி தானாகவே அம்பேத் கரைச் சந்திக்கும் விருப்பத்தைக் கடிதம் மூலம் வெளியிட்டு 6-8-1931 அன்று சந்திக்க வருவதாக நிச்சயித்தார். அம்பேத்கர் காந்திஜியிடமிருந்து கடிதம் எதிர் பார்க்கவில்லை. அன்றுதான் அவர் ஸாங்கலி என்ற ஊரிலிருந்து திரும்பி யிருந்தார். காய்ச்சலால் உடம்பு கொதித்துக் கொண்டிருந்தது. எனினும், இரவு 8 மணிக்கு நானே உங்களைச் சந்திக்க வருகிறேன்" என்று சொல்லியனுப் பினார். ஆனால் அன்று மாலை 106 டிகிரி வரை காய்ச்சல் ஏறிவிட்டது. வேறு வழியின்றி அவர் காய்ச்சல் இறங்கியதும் தங்களைச் சந்திக்க வருகிறேன் என்று செய்தியனுப்ப நேர்ந்தது. அதன்படி 14-8-1193 அன்று பிற்பகல் அம்பேத்கர் மகாத்மா காந்தியைச் சந்திக்கப் பம்பாயில் மணி பவனை அடைந்தார். இந்தச் சந்திப்பு பிற்பகல் 2 மணிக்குத் தொடங்கியது. சந்திப்பின்போது காந்திஜி அம்பேத்கரிடம் இந்து-முஸ்லிம் பிரச்சினையைவிடத் தீண்டத்தகாத வர்களின் பிரச்சினையை அதிகம் முக்கியத்துவம் வாய்ந்ததாகத் தான் கருது வதாகச் சொன்னார். தனக்குத் தீண்டத்தகாதவர்களின் மீது அளவுகடந்த அன்பு இருந்த போதிலும், அம்பேத்கர் தன்னை காந்தியடிகளை தீண்டத் தகாதவர்களின் தலைவராக ஏற்கத் தயாரில்லை என்பது தனக்கு வியப் பளிப்பதாகக் கூறினார். தீண்டாமையை ஒழிக்கக் காங்கிரஸ் கட்சி 20 லட்சம் ரூபாய் செலவழித்துள்ளதாகக் குறிப்பிட்டார். இவ்வாறு காந்திஜி கூறியதைக் கேட்டதும் அம்பேத்கர் சொன்னார். இந்த விஷயம் இன்றுவரை எனக்குத் தெரியாது. காங்கிரசின் முயற்சி

தேவர் திரைப்படங்களில் எம்ஜிஆர் வெற்றி! வெற்றி! என்று கூவுவாரே... அப்படிக் கூவத் தோன்றியது எனக்கு. ஆமாம், கூகுள் டிரைவ் எழுத்துணரி அருமையாகச் செயல்படுகிறது. இதை எப்படிச் செய்வது என்பதை படத்துடன் பார்க்கலாம்.

1. எந்தப் பக்கத்தை எழுத்துகளாக மாற்ற வேண்டுமோ அதை ஸ்கேன் செய்து படமாக மாற்றிக் கொள்ளுங்கள். குறைந்தபட்சம் 300 dpi இருக்க வேண்டும்.

2. ஜிமெயில் கணக்கில் நுழைந்து கூகுள் டிரைவுக்குச் செல்லுங்கள், அல்லது கூகுள் டிரைவ் பக்கத்தில் லாகின் செய்யுங்கள். திறக்கிற பக்கத்தில் இடதுபுறம் பாருங்கள். படத்தில் உள்ளதுபோலத் தெரியும்.


3. அதில் New என்பதன் மீது கிளிக் செய்யுங்கள். கீழே உள்ளதுபோல, ஒரு மெனு கீழ்நோக்கி விரியும். அதில் File Upload என்பதை தேர்வு செய்யுங்கள்.

4. ஒரு சாளரம் திறக்கும். நீங்கள் படத்தை எங்கே சேமித்து வைத்தீர்களோ அந்த போல்டரைத் திறந்து, படத்தின் கோப்பைத் தேர்வு செய்யுங்கள். படம் பதிவேற சில நிமிடங்கள் எடுக்கலாம். பதிவேறிய பிறகு இவ்வாறு படம் தெரியும். (கீழே மாதிரியில் Scan0085 என்பது நான் தேர்வு செய்து பதிவேற்றிய படம்)


5. படத்தின்மீது மவுசால் கிளிக் செய்து, வலதுபக்க பொத்தானை கிளிக் செய்யுங்கள். கீழ்க்கண்டதுபோல மெனு விரியும். அதில் Open With என்று தெரிகிற இடத்தின்மீது கிளிக் செய்யுங்கள். அதன் வலதுபுறம் Google Docs என்று தெரியும். அதன் மீது கிளிக் செய்யுங்கள்.
 
6. புதிதாக ஒரு சாளரம் திறக்கும். அதில் படத்தை எழுத்துணரியாக மாற்றும் பணி சில நிமிடத்தில் அல்லது சில நொடிகளில் நடக்கும். மாற்றிய பிறகு படம் மேலாகவும், எழுத்துகள் கீழாகவும் கீழ்க்கண்டவாறு தெரியும்.


அவ்வளவுதான். வேலை முடிந்தது. படத்தின் கீழே இருக்கும் உரைப்பகுதியை மொத்தமாக செலக்ட் செய்து, காபி செய்யலாம் (Control+C), எங்கே தேவையோ அங்கே பேஸ்ட் (Control+V) செய்து கொள்ளலாம். நீங்கள் பதிவேற்றிய படமும், எழுத்துகளாக மாற்றப்பட்ட உரையும் கூகுள் டிரைவிலேயே இருக்கும். பிடிஎஃப் வடிக் கோப்புகளையும் எழுத்துகளாக மாற்றலாம், ஆனால் சில பிழைகள் வரக்கூடும். அதே பிடிஎஃப் பக்கத்தை படமாக மாற்றிப் பதிவேற்றினால் பிழைகள் குறைவு.

கடைசியாக அனுபவத்திலிருந்து ஓர் எச்சரிக்கை. கூகுள் டிரைவில் நான் செய்து பார்த்தபோது, நூறு படங்களுக்கு மேல் பதிவேற்றி விட்டால், எழுத்துகளாக மாற்றும் வசதி வருவதில்லை. Open With என்று கிளிக் செய்யும்போது Google Docs என்று காட்டுவதில்லை. ஒவ்வொரு படத்துக்கும் ஒரு ஃபைல், அதன் உரைக்கும் ஒரு ஃபைல் – ஆக 100 படங்களுக்கு 200 ஃபைல்கள் சேர்ந்து விட்டால் அதற்கு மேல் படத்தை எழுத்துணரியாக மாற்ற முடியவில்லை என்று புரிந்தது. இந்தப் பிரச்சினை வந்தால், முன்னர் எழுத்துகளாக மாற்றிவிட்ட சில ஃபைல்களை நீக்கி விட்டால் போதும், மீண்டும் தொடர்ந்து எழுத்துணரியில் மாற்றலாம்.

யாம் பெற்ற இன்பம் பெறுக இவ்வையகம்

நன்றி - http://malaigal.com/?p=7382

6 comments:

வேல்முருகன் said...

அருமையான நல்லதொருதகவல் நன்றி சார்

Suresh Kumar said...

ஆஹா இத்தனை நாள் கூகுள் ட்ரைவை சேமிப்பதற்கு மட்டுமே உபயோகித்திருக்கிறேன். ஒரு பழைய பதியப்படாத பத்திரம் ஒன்றும் அதில் உள்ளது.இப்போதே சோதித்துவிடுகிறேன். :) நன்றி.

nana shaam said...

அருமை,....அருமை


வெங்கட் நாகராஜ் said...

நல்லதொரு தகவல்...... முயற்சித்துப் பார்க்கிறேன்.....

நன்றி.

Chellappa Yagyaswamy said...

Thanks my dear friend. I too struggled with Ponvizhi. பேந்தப் பேந்த விழித்ததுதான் மிச்சம். One of my relatives employed in Google, NY told me (last year) that Google's OCR for Tamil could be ready anytime. The context was to digitise SRK's old books which are mostly out of print. (Even the Tirukkural commentary which we released in Delhi Tamil Sangam - in your presence- is no longer in print.) However I failed to follow up the matter for quite sometime. Thanks that you gave me the right information now.

I tried and found that this OCR is working well with one colunmn text. When I tried a page of Kumudam -which has two columns, it didnt work that perfectly. More columns in the page could pose more problems for the OCR, I feel. Perhaps Shajajan would come out with a solution, if not Google! - Y Chellappa (இராய செல்லப்பா)

svisagam said...

நன்றி, நல்ல தகவல்... முயற்சித்துப் பார்க்கிறேன்.