【ஆழமான கற்றல் OCR தொடர்·6】CRNN கட்டமைப்பின் ஆழமான பகுப்பாய்வு
📅
இடுகை நேரம்: 2025-08-19
👁️
படித்தல்:1815
⏱️
தோராயமாக 22 நிமிடம் (4248 வார்த்தைகள்)
📁
வகை: மேம்பட்ட வழிகாட்டிகள்
CNN அம்சப் பிரித்தெடுத்தல், RNN வரிசை மாடலிங் மற்றும் CTC இழப்பு செயல்பாட்டின் முழுமையான செயல்படுத்தல் உள்ளிட்ட CRNN கட்டமைப்பின் விரிவான பகுப்பாய்வு. சி.என்.என் மற்றும் ஆர்.என்.என் ஆகியவற்றின் சரியான கலவையில் டைவ் செய்யுங்கள்.
## அறிமுகம்
CRNN (Convolutional Recurrent Neural Network) என்பது ஆழமான கற்றல் OCR துறையில் மிக முக்கியமான கட்டமைப்புகளில் ஒன்றாகும், இது 2015 இல் Bai Xiang et al. ஆல் முன்மொழியப்பட்டது. CRNN புத்திசாலித்தனமாக கன்வோல்யூஷனல் நரம்பியல் நெட்வொர்க்குகளின் (CNNs) அம்ச பிரித்தெடுத்தல் திறன்களை தொடர்ச்சியான நரம்பியல் நெட்வொர்க்குகளின் (RNNs) வரிசை மாடலிங் திறன்களுடன் இறுதி முதல் இறுதி வரை உரை அங்கீகாரத்தை அடைய ஒருங்கிணைக்கிறது. இந்த கட்டுரை CRNN இன் கட்டிடக்கலை வடிவமைப்பு, வேலை கொள்கைகள், பயிற்சி முறைகள் மற்றும் OCR இல் குறிப்பிட்ட பயன்பாடுகள் பற்றிய ஆழமான பகுப்பாய்வை வழங்கும், இது வாசகர்களுக்கு ஒரு விரிவான தொழில்நுட்ப புரிதலை வழங்கும்.
## CRNN கட்டிடக்கலையின் கண்ணோட்டம்
### வடிவமைப்பு உந்துதல்
CRNN க்கு முன்பு, OCR அமைப்புகள் பொதுவாக படிப்படியான அணுகுமுறையை ஏற்றுக்கொண்டன: எழுத்து கண்டறிதல் மற்றும் பிரிவு முதலில் செய்யப்பட்டது, பின்னர் ஒவ்வொரு கதாபாத்திரமும் அங்கீகரிக்கப்பட்டது. இந்த அணுகுமுறை பின்வரும் சிக்கல்களைக் கொண்டுள்ளது:
**பாரம்பரிய முறைகளின் வரம்புகள்**:
- பிழை பிரச்சாரம்: பாத்திரப் பிரிவில் உள்ள பிழைகள் அங்கீகார முடிவுகளை நேரடியாக பாதிக்கும்
- சிக்கலானது: சிக்கலான எழுத்து பிரிவு வழிமுறைகளை வடிவமைக்க வேண்டும்
- மோசமான வலிமை: எழுத்து இடைவெளி மற்றும் எழுத்துரு மாற்றங்களுக்கு உணர்திறன்
- தொடர்ச்சியான பக்கவாதங்களைக் கையாள இயலாமை: கையால் எழுதப்பட்ட உரையில் தொடர்ச்சியான பக்கவாதத்தின் நிகழ்வை பிரிக்க கடினம்
** CRNN இன் புதுமையான யோசனைகள்**:
- இறுதி முதல் இறுதி வரை கற்றல்: படங்களிலிருந்து உரை வரிசைகளுக்கு நேரடியாக வரைபடமாக்குதல்
- பிரிவு இல்லை: பாத்திரப் பிரிவின் சிக்கலைத் தவிர்க்கிறது
- வரிசை மாடலிங்: கதாபாத்திரங்களுக்கு இடையிலான சார்புகளை மாதிரியாக்க RNN களைப் பயன்படுத்தவும்
- CTC சீரமைப்பு: உள்ளீடு-வெளியீட்டு வரிசை நீளம் பொருத்தமின்மைகளை நிவர்த்தி செய்கிறது
### ஒட்டுமொத்த கட்டிடக்கலை
CRNN கட்டமைப்பு மூன்று முக்கிய கூறுகளைக் கொண்டுள்ளது:
**1. சுழல் அடுக்குகள்**:
- செயல்பாடு: உள்ளீட்டு படங்களில் இருந்து அம்சம் காட்சிகளை பிரித்தெடுக்கவும்
- உள்ளீடு: உரை வரி படம் (நிலையான உயரம், மாறி அகலம்)
- வெளியீடு: அம்சம் வரைபட வரிசை
**2. தொடர்ச்சியான அடுக்குகள்**:
- செயல்பாடு: அம்ச வரிசைகளில் மாதிரி சூழல் சார்புகள்
- உள்ளீடு: CNN ஆல் பிரித்தெடுக்கப்பட்ட அம்ச வரிசை
- வெளியீடு: சூழல் தகவலுடன் ஒரு அம்ச வரிசை
**3. டிரான்ஸ்கிரிப்ஷன் லேயர் **:
- செயல்பாடு: உரை வரிசைகள் அம்ச வரிசைகளை மாற்றவும்
- முறை: CTC ஐப் பயன்படுத்துதல் (இணைப்பாளர் தற்காலிக வகைப்பாடு)
- வெளியீடு: இறுதி உரை அங்கீகார முடிவு
## சுழல் அடுக்குகளின் விரிவான விளக்கம்
### அம்சம் பிரித்தெடுத்தல் உத்திகள்
CRNN இன் சுழல் அடுக்கு குறிப்பாக உரை அங்கீகாரத்திற்காக வடிவமைக்கப்பட்டுள்ளது:
** நெட்வொர்க் கட்டமைப்பு அம்சங்கள்**:
- ஆழமற்ற ஆழம்: சுழல் அடுக்குகளின் 7 அடுக்குகள் பொதுவாக பயன்படுத்தப்படுகின்றன
- சிறிய சுழல் கர்னல்கள்: 3×3 சுழல் கர்னல்கள் முக்கியமாக பயன்படுத்தப்படுகின்றன
- பூலிங் மூலோபாயம்: அகல திசையில் குளிப்பதை குறைவாகவே பயன்படுத்தவும்
**குறிப்பிட்ட நெட்வொர்க் கட்டமைப்பு**:
உள்ளீடு: 32×W×1 (உயரம் 32, அகலம் W, ஒற்றை சேனல்)
Conv1: 64 3×3 சுழல் அணுக்கருக்கள், படி 1, நிரப்பு 1
மேக்ஸ்பூல் 1: 2×2 குளங்கள், படி நீளம் 2
Conv2: 128 3×3 சுழல் கர்னல்கள், படி 1, நிரப்பு 1
மேக்ஸ்பூல் 2: 2×2 பூல், படி அளவு 2
Conv3: 256 3×3 சுழல் அணுக்கருக்கள், படி 1, நிரப்பு 1
Conv4: 256 3×3 சுழல் கோர்கள், படி 1, நிரப்பு 1
MaxPool3: 2×1 பூல், படி அளவு (2,1)
Conv5: 512 3×3 சுழல் கோர்கள், படி 1, நிரப்பு 1
BatchNorm + ReLU
Conv6: 512 3×3 சுழல் கர்னல்கள், படி 1, நிரப்பு 1
BatchNorm + ReLU
MaxPool4: 2×1 பூல், படி அளவு (2,1)
Conv7: 512 2×2 சுழல் அணுக்கருக்கள், படி 1, நிரப்பு 0
வெளியீடு: 512×1×W/4
### முக்கிய வடிவமைப்பு பரிசீலனைகள்
** உயர் சுருக்க உத்தி**:
- இலக்கு: படத்தை 1 பிக்சல் உயரத்திற்கு சுருக்கவும்
- முறை: படிப்படியாக பல பூலிங் அடுக்குகளைப் பயன்படுத்தி உயரத்தை சுருக்கவும்
- காரணம்: உரை வரியின் உயரம் ஒப்பீட்டளவில் முக்கியமற்றது
** அகலம் ஹோல்டிங் மூலோபாயம்**:
- இலக்கு: படத்தின் அகலத் தகவலை முடிந்தவரை பராமரிக்கவும்
- முறை: அகல திசையில் பூலிங் செயல்பாடுகளைக் குறைக்கவும்
- காரணம்: உரையின் வரிசை தகவல் முக்கியமாக அகல திசையில் பிரதிபலிக்கிறது
**அம்ச வரைபட மாற்றம்**:
சுழல் அடுக்கின் வெளியீடு RNN இன் உள்ளீட்டு வடிவத்திற்கு மாற்றப்பட வேண்டும்:
- மூல வெளியீடு: C×H×W (சேனல் × உயரம்× அகலம்)
- மாற்றப்பட்டது: W×C (வரிசை நீளம்× அம்சம் பரிமாணம்)
- முறை: ஒவ்வொரு அகல நிலைக்கும் அம்ச திசையன் ஒரு நேர படியாக எடுத்துக் கொள்ளுங்கள்
## வட்ட அடுக்கின் விரிவான விளக்கம்
### ஆர்.என்.என் தேர்வு
CRNNகள் பொதுவாக இருதிசை LSTMகளை லூப் அடுக்காகப் பயன்படுத்துகின்றன:
** இருதிசை LSTM இன் நன்மைகள்**:
- சூழல் தகவல்: முன்னோக்கி மற்றும் பின்னோக்கி சூழலைப் பயன்படுத்தவும்
- நீண்ட தூர சார்புகள்: LSTM நீண்ட தூர சார்புகளைக் கையாளும் திறன் கொண்டது
- சாய்வு நிலைப்படுத்தல்: சாய்வு மறைவு சிக்கலைத் தவிர்க்கிறது
**நெட்வொர்க் கட்டமைப்பு**:
உள்ளீடு: W×512 (வரிசை நீளம் × அம்ச பரிமாணம்)
BiLSTM1: 256 மறைக்கப்பட்ட செல்கள் (128 முன்னோக்கி + 128 பின்னோக்கி)
BiLSTM2: 256 மறைக்கப்பட்ட செல்கள் (128 முன்னோக்கி + 128 பின்னோக்கி)
வெளியீடு: W×256 (வரிசை நீளம்× மறைக்கப்பட்ட பரிமாணங்கள்)
### வரிசை மாடலிங் வழிமுறைகள்
** நேர சார்பு மாடலிங்**:
RNN அடுக்கு எழுத்துக்களுக்கு இடையிலான நேர சார்புகளைப் பிடிக்கிறது:
- முந்தைய கதாபாத்திரத்தின் தகவல் தற்போதைய கதாபாத்திரத்தை அடையாளம் காண உதவுகிறது
- அடுத்தடுத்த கதாபாத்திரங்களுக்கான தகவல்களும் பயனுள்ள சூழலை வழங்க முடியும்
- முழு சொல் அல்லது சொற்றொடரின் தகவல் தெளிவற்ற தன்மையை நீக்க உதவுகிறது
**அம்ச மேம்பாடுகள்**:
RNN ஆல் செயலாக்கப்பட்ட அம்சங்கள் பின்வரும் பண்புகளைக் கொண்டுள்ளன:
- சூழல் உணர்திறன்: ஒவ்வொரு இருப்பிடத்தின் அம்சங்களும் சூழல் தகவல்களைக் கொண்டுள்ளன
- நேர நிலைத்தன்மை: அருகிலுள்ள இடங்களில் உள்ள அம்சங்கள் ஒரு குறிப்பிட்ட தொடர்ச்சியைக் கொண்டுள்ளன
- சொற்பொருள் செழுமை: காட்சி மற்றும் வரிசை அம்சங்களை ஒருங்கிணைக்கிறது
## டிரான்ஸ்கிரிப்ஷன் அடுக்கின் விரிவான விளக்கம்
### CTC பொறிமுறை
CTC (Connectionist Temporal Classification) என்பது CRNN இன் முக்கிய அங்கமாகும்:
**CTCகளின் பங்கு **:
- சீரமைப்பு சிக்கல்களை நிவர்த்தி செய்தல்: உள்ளீட்டு வரிசை நீளங்கள் வெளியீட்டு வரிசை நீளங்களுடன் பொருந்தவில்லை
- இறுதி முதல் இறுதி வரை பயிற்சி: எழுத்து நிலை சீரமைப்பு குறிப்புகள் தேவையில்லை
- நகல்களைக் கையாளவும்: நகல் எழுத்துக்களின் வழக்குகளை சரியாகக் கையாளவும்
**CTC எவ்வாறு செயல்படுகிறது **:
1. லேபிள் தொகுப்பை விரிவுபடுத்தவும்: அசல் எழுத்துத் தொகுப்பின் மேல் வெற்று லேபிள்களைச் சேர்க்கவும்
2. பாதை கணக்கெடுப்பு: சாத்தியமான அனைத்து சீரமைப்பு பாதைகளையும் கணக்கிடுகிறது
3. பாதை நிகழ்தகவு: ஒவ்வொரு பாதையின் நிகழ்தகவையும் கணக்கிடுங்கள்
4. விளிம்புநிலை: வரிசை நிகழ்தகவைப் பெற அனைத்து பாதைகளின் நிகழ்தகவுகளையும் கூட்டுங்கள்
### CTC இழப்பு செயல்பாடு
** கணித பிரதிநிதித்துவம்**:
உள்ளீட்டு வரிசை X மற்றும் இலக்கு வரிசை Y ஆகியவற்றைக் கொடுத்தால், CTC இழப்பு பின்வருமாறு வரையறுக்கப்படுகிறது:
L_CTC = -log P(Y| X)
எங்கே P(Y| X) சாத்தியமான அனைத்து சீரமைக்கப்பட்ட பாதைகளின் நிகழ்தகவுகளையும் தொகுப்பதன் மூலம் பெறப்படுகிறது:
P(Y| X) = Σ_π∈B^(-1)(Y) P(π| X)
இங்கே B^(-1)(Y) இலக்கு வரிசை Y உடன் வரைபடமாக்கக்கூடிய அனைத்து பாதைகளையும் குறிக்கிறது.
**முன்னோக்கி-பின்னோக்கி வழிமுறை**:
CTC இழப்பை திறம்பட கணக்கிட, டைனமிக் நிரலாக்கத்திற்கான முன்னோக்கி-பின்தங்கிய வழிமுறை பயன்படுத்தப்படுகிறது:
- முன்னோக்கி வழிமுறை: ஒவ்வொரு மாநிலத்தையும் அடையும் நிகழ்தகவைக் கணக்கிடுகிறது
- பின்தங்கிய வழிமுறை: ஒவ்வொரு மாநிலத்திலிருந்தும் இறுதி வரை நிகழ்தகவைக் கணக்கிடுகிறது
- சாய்வு கணக்கீடு: முன்னோக்கி-பின்னோக்கி நிகழ்தகவுடன் இணைந்து சாய்வுகளைக் கணக்கிடுங்கள்
## CRNN பயிற்சி உத்தி
### தரவு முன்செயலாக்கம்
** பட முன்செயலாக்கம்**:
- அளவு இயல்பாக்கம்: படத்தின் உயரத்தை 32 பிக்சல்களுக்கு ஒருங்கிணைக்கவும்
- தோற்ற விகிதம் பராமரிப்பு: அசல் படத்தின் தோற்ற விகிதத்தை பராமரிக்கிறது
- கிரேஸ்கேல் மாற்றம்: ஒற்றை சேனல் சாம்பல் அளவிலான படத்திற்கு மாற்றவும்
- எண் இயல்பாக்கம்: பிக்சல் மதிப்புகள் [0,1] அல்லது [-1,1] க்கு இயல்பாக்கப்படுகின்றன
**தரவு மேம்பாடு **:
- வடிவியல் மாற்றங்கள்: சுழற்சி, சாய்வு, முன்னோக்கு மாற்றம்
- விளக்கு மாற்றங்கள்: பிரகாசம், மாறுபாடு சரிசெய்தல்
- சத்தம் கூடுதலாக: கௌசியன் சத்தம், உப்பு மற்றும் மிளகு சத்தம்
- மங்கலானது: இயக்க மங்கல், கௌசியன் மங்கலானது
### பயிற்சி நுட்பங்கள்
**கற்றல் விகித திட்டமிடல்**:
- ஆரம்ப கற்றல் விகிதம்: பொதுவாக 0.001 ஆக அமைக்கப்படுகிறது
- சிதைவு மூலோபாயம்: அதிசை சிதைவு அல்லது படி சிதைவு
- வார்ம்-அப் உத்தி: முதல் சில சகாப்தங்கள் ஒரு சிறிய கற்றல் விகிதத்தைப் பயன்படுத்துகின்றன
** முறைப்படுத்தல் நுட்பங்கள்**:
- இடைநிற்றல்: RNN அடுக்கிற்குப் பிறகு ஒரு இடைநிற்றலைச் சேர்க்கவும்
- எடை சீரழிவு: L2 முறைப்படுத்தல் அதிகப்படியான பொருத்தத்தைத் தடுக்கிறது
- தொகுதி இயல்பாக்கம்: CNN அடுக்கில் தொகுதி இயல்பாக்கத்தைப் பயன்படுத்தவும்
** உகப்பாக்கி தேர்வு**:
- ஆடம்: தகவமைப்பு கற்றல் விகிதம், வேகமான ஒருங்கிணைப்பு
- RMSprop: RNN பயிற்சிக்கு ஏற்றது
- SGD + வேகம்: பாரம்பரிய ஆனால் நிலையான விருப்பம்
## CRNN இன் தேர்வுமுறை மற்றும் மேம்பாடு
### கட்டிடக்கலை தேர்வுமுறை
** சி.என்.என் பகுதி மேம்பாடுகள்**:
- ரெஸ்நெட் இணைப்புகள்: பயிற்சி நிலைத்தன்மையை மேம்படுத்த மீதமுள்ள இணைப்புகள் சேர்க்கப்பட்டன
- டென்ஸ்நெட் ஃபேப்ரிக்: அடர்த்தியான இணைப்புகள் அம்சத்தை மேம்படுத்துகின்றன மல்டிபிளெக்சிங்
- கவனம் பொறிமுறை: சி.என்.என்களில் இடஞ்சார்ந்த கவனத்தை அறிமுகப்படுத்துகிறது
**RNN பகுதி மேம்பாடுகள்**:
- GRU மாற்று: அளவுருக்களின் அளவைக் குறைக்க GRU ஐப் பயன்படுத்தவும்
- மின்மாற்றி: சுய கவனம் வழிமுறைகளைப் பயன்படுத்தி RNNகளை மாற்றுகிறது
- பல அளவிலான அம்சங்கள்: வெவ்வேறு அளவுகளில் இருந்து அம்சங்களை இணைக்கவும்
### செயல்திறன் தேர்வுமுறை
** அனுமானம் முடுக்கம்**:
- மாதிரி அளவீடு: INT8 அளவீடு கணக்கீட்டு முயற்சியைக் குறைக்கிறது
- மாதிரி கத்தரித்தல்: முக்கியமற்ற இணைப்புகளை அகற்றவும்
- அறிவு வடிகட்டல்: சிறிய மாதிரிகளுடன் பெரிய மாதிரிகளின் அறிவைக் கற்றுக்கொள்ளுங்கள்
** நினைவக தேர்வுமுறை**:
- சாய்வு சோதனைச் சாவடிகள்: பயிற்சியின் போது நினைவக தடயத்தைக் குறைக்கவும்
- கலப்பு துல்லியம்: FP16 உடன் ரயில்
- டைனமிக் வரைபட தேர்வுமுறை: கணக்கிடப்பட்ட வரைபடத்தின் கட்டமைப்பை மேம்படுத்தவும்
## நிஜ உலக பயன்பாட்டு வழக்குகள்
### கையால் எழுதப்பட்ட உரை அங்கீகாரம்
**பயன்பாட்டு காட்சிகள்**:
- கையால் எழுதப்பட்ட குறிப்புகளை டிஜிட்டல் மயமாக்கவும்
- படிவம் தானாக நிரப்புதல்
- வரலாற்று ஆவண அங்கீகாரம்
** தொழில்நுட்ப அம்சங்கள்**:
- பெரிய எழுத்து மாறுபாடு: வலுவான அம்சம் பிரித்தெடுத்தல் திறன்கள் தேவை
- தொடர்ச்சியான பக்கவாதம் செயலாக்கம்: CTC பொறிமுறையின் நன்மைகள் வெளிப்படையானவை
- சூழல் விஷயங்கள்: RNN களின் வரிசை மாடலிங் திறன்கள் முக்கியமானவை
### அச்சிடப்பட்ட உரை அங்கீகாரம்
**பயன்பாட்டு காட்சிகள்**:
- ஆவணங்களை டிஜிட்டல் மயமாக்கவும்
- டிக்கெட் அடையாளம்
- அடையாள அங்கீகாரம்
** தொழில்நுட்ப அம்சங்கள்**:
- எழுத்துரு ஒழுங்கு: சி.என்.என் அம்ச பிரித்தெடுத்தல் ஒப்பீட்டளவில் நேரடியானது
- அச்சுக்கலை விதிகள்: தளவமைப்பு தகவலைப் பயன்படுத்தலாம்
- உயர் துல்லியத் தேவைகள்: சிறந்த மாதிரி ட்யூனிங் தேவைப்படுகிறது
### காட்சி உரை அங்கீகாரம்
**பயன்பாட்டு காட்சிகள்**:
- ஸ்ட்ரீட் வியூ உரை அங்கீகாரம்
- தயாரிப்பு லேபிள் அடையாளம்
- போக்குவரத்து அடையாள அங்கீகாரம்
** தொழில்நுட்ப அம்சங்கள்**:
- சிக்கலான பின்னணி: வலுவான அம்சம் பிரித்தெடுத்தல் தேவைப்படுகிறது
- கடுமையான சிதைவு: வலுவான கட்டிடக்கலை வடிவமைப்பு தேவை
- நிகழ்நேர தேவைகள்: திறமையான பகுத்தறிவு தேவைப்படுகிறது
## சுருக்கம்
ஆழமான கற்றல் OCR இன் உன்னதமான கட்டமைப்பாக, CRNN பாரம்பரிய OCR முறைகளின் பல சிக்கல்களை வெற்றிகரமாக தீர்க்கிறது. அதன் இறுதி முதல் இறுதி வரை பயிற்சி முறை, பாத்திரப் பிரிவு இல்லாமல் வடிவமைப்பு கருத்து மற்றும் CTC பொறிமுறையின் அறிமுகம் அனைத்தும் OCR தொழில்நுட்பத்தின் அடுத்தடுத்த வளர்ச்சிக்கு முக்கியமான உத்வேகத்தை வழங்குகின்றன.
** முக்கிய பங்களிப்புகள்**:
இறுதி முதல் இறுதி வரை கற்றல்: OCR அமைப்புகளின் வடிவமைப்பை எளிதாக்குகிறது
- வரிசை மாடலிங்: உரையின் வரிசை பண்புகளை திறம்பட பயன்படுத்துகிறது
- CTC சீரமைப்பு: நிவர்த்தி செய்யப்பட்ட வரிசை நீள பொருத்தமின்மை
- எளிய கட்டிடக்கலை: புரிந்துகொள்ள மற்றும் செயல்படுத்த எளிதானது
** வளர்ச்சி திசை**:
- கவனம் பொறிமுறை: செயல்திறனை மேம்படுத்த கவனத்தை அறிமுகப்படுத்துதல்
- மின்மாற்றி: RNNகளை சுய கவனத்துடன் மாற்றுகிறது
- மல்டிமோடல் இணைவு: மொழி மாதிரிகள் போன்ற பிற தகவல்களை இணைக்கவும்
- இலகுரக வடிவமைப்பு: மொபைல் சாதனங்களுக்கான மாதிரி சுருக்கம்
CRNN இன் வெற்றி OCR துறையில் ஆழமான கற்றலின் சிறந்த திறனுக்கு ஒரு சான்றாகும் மற்றும் பயனுள்ள இறுதி முதல் இறுதி கற்றல் அமைப்புகளை எவ்வாறு வடிவமைப்பது என்பதைப் புரிந்துகொள்வதற்கான மதிப்புமிக்க அனுபவத்தை வழங்குகிறது. அடுத்த கட்டுரையில், CTC இழப்பு செயல்பாட்டின் கணிதம் மற்றும் செயல்படுத்தல் விவரங்களை ஆராய்வோம்.
குறிச்சொற்கள்:
CRNN
CNN
RNN
LSTM
CTC
OCR
ஆழமான கற்றல்
இறுதி முதல் இறுதி வரை
வரிசை மாடலிங்