【Ẹkọ jinlẹ OCR Series · 6】 Onínọmbà jinlẹ ti faaji CRNN
📅
Akoko ifiweranṣẹ: 2025-08-19
👁️
Ka:1815
⏱️
Approx. 22 min (4248 ọrọ)
📁
Ẹka: Awọn itọsọna to ti ni ilọsiwaju
Onínọmbà alaye ti faaji CRNN, pẹlu isediwon ẹya-ara CNN, awoṣe ọkọọkan RNN, ati imuse pipe ti iṣẹ pipadanu CTC. Wọ inu apapo pipe ti CNN ati RNN.
## Ifihan
CRNN (Convolutional Recurrent Neural Network) jẹ ọkan ninu awọn faaji pataki julọ ni aaye ti OCR ẹkọ jinlẹ, ti a dabaa nipasẹ Bai Xiang et al. ni ọdun 2015. CRNN daapọ awọn agbara isediwon ẹya-ara ti awọn nẹtiwọọki neural convolutional (CNNs) pẹlu awọn agbara awoṣe ọkọọkan ti awọn nẹtiwọọki neural loorekoore (RNNs) lati ṣaṣeyọri idanimọ ọrọ opin-si-opin. Nkan yii yoo pese onínọmbà jinlẹ ti apẹrẹ faaji CRNN, awọn ilana ṣiṣe, awọn ọna ikẹkọ, ati awọn ohun elo kan pato ni OCR, pese awọn onkawe pẹlu oye imọ-ẹrọ okeerẹ.
## Akopọ ti CRNN Architecture
### Iwuri Apẹrẹ
Ṣaaju CRNN, awọn ọna OCR nigbagbogbo gba ọna igbesẹ-nipasẹ-igbesẹ: iṣawari ohun kikọ ati ipin ni a ṣe ni akọkọ, ati lẹhinna a ṣe idanimọ ohun kikọ kọọkan. Ọna yii ni awọn iṣoro wọnyi:
【拼音】 yǒu yǒu yī gè yǒu yī
- Itankale aṣiṣe: Awọn aṣiṣe ni ipin ohun kikọ le ni ipa taara lori awọn abajade idanimọ
- Complexity: Nilo lati ṣe apẹrẹ awọn alugoridimu ipin ohun kikọ silẹ ti o nira
- Agbara ti ko dara: Ti o ni itara si aaye ohun kikọ ati awọn ayipada fonti
- Ailagbara lati mu awọn ikọlu lemọlemọfún: Iṣẹlẹ ti awọn ikọlu lemọlemọfún ninu ọrọ ti a kọ pẹlu ọwọ nira lati ya sọtọ
** Awọn imọran imotuntun ti CRNN **:
- Ẹkọ ipari-si-opin: Maapu taara lati awọn aworan si awọn itọsọna ọrọ
- Ko si Segmentation: Avoids awọn complexity ti ohun kikọ segmentation
- Awoṣe Ọkọọkan : Lo awọn RNN lati ṣe awoṣe awọn igbẹkẹle laarin awọn ohun kikọ
- CTC Alignment: Adirẹsi titẹsi-o wu ọkọọkan ipari mismatches
### Ìðïñåò íá ìáò ðåéò êáé
Ile-iṣẹ CRNN ni awọn ẹya pataki mẹta:
**1. Awọn fẹlẹfẹlẹ Convolutional **:
- Iṣẹ: Yọ awọn ẹya ara ẹrọ lati input images
- Input: Ọrọ ila image (ti o wa titi iga, ayípadà iwọn)
- Abajade: Ẹya map ọkọọkan
**2. Awọn fẹlẹfẹlẹ loorekoore **:
- Iṣẹ: Awoṣe awọn igbẹkẹle ti o tọ ni awọn ẹya ara ẹrọ
- Input: Awọn ẹya ọkọọkan jade nipasẹ awọn CNN
- Abajade: A ẹya-ara ọkọọkan pẹlu contextual alaye
**3. Transcription Layer **:
- Iṣẹ: Iyipada awọn ẹya ara ẹrọ si ọrọ ọkọọkan
- Ọna: Lilo CTC (Connectionist Temporal Classification)
- Abajade: Abajade idanimọ ọrọ ikẹhin
## Õàëÿâà íà êîìï " Íîâîñòè
### Awọn ilana Isediwon Ẹya
Ïîýòîìó ýòîò ÷åëîâåê ìîåò áûòü íå ìåíåå ÷åì íà ýòîò ñ÷åò:
** Awọn ẹya ara ẹrọ Nẹtiwọọki **:
- ijinle aijinile: Awọn fẹlẹfẹlẹ 7 ti awọn fẹlẹfẹlẹ convolutional ni a maa n lo
- Awọn ekuro convolutional kekere: Awọn ekuro convolutional 3×3 ni a lo ni pataki
- Pooling nwon.Mirza: Lo pooling sparingly ni iwọn itọsọna
** Iṣeto nẹtiwọọki kan pato **:
Input: 32×W×1 (iga 32, iwọn W, nikan ikanni)
Conv1: 64 3×3 convolutional nuclei, igbese 1, fọwọsi 1
MaxPool1: 2×2 adagun, igbesẹ ipari 2
Conv2: 128 3×3 convolutional kernels, igbesẹ 1, fọwọsi 1
MaxPool2: 2×2 pooled, igbesẹ iwọn 2
Conv3: 256 3×3 convolutional nuclei, igbesẹ 1, fọwọsi 1
Conv4: 256 3×3 convolutional cores, igbesẹ 1, fọwọsi 1
MaxPool3: 2×1 pooled, igbesẹ iwọn (2,1)
Conv5: 512 3×3 convolutional cores, igbesẹ 1, fọwọsi 1
BatchNorm + ReLU
Conv6: 512 3×3 convolutional kernels, igbesẹ 1, fọwọsi 1
BatchNorm + ReLU
MaxPool4: 2×1 pooled, igbesẹ iwọn (2,1)
Conv7: 512 2×2 convolutional nuclei, igbesẹ 1, fọwọsi 0
O wu: 512×1×W / 4
### Awọn imọran Apẹrẹ Bọtini
** Ilana funmorawon giga **:
- Ìlépa: Compress awọn aworan to 1 ẹbun ga
- Ọna: Maa compress awọn iga lilo ọpọ pooling fẹlẹfẹlẹ
- Idi: Giga ti ila ọrọ ko ṣe pataki
** Iwọn Dani nwon.Mirza::
- Ìlépa: Ṣetọju alaye iwọn ti aworan naa bi o ti ṣee ṣe
- Ọna: Din pooling mosi ni iwọn itọsọna
- Idi: Alaye ọkọọkan ti ọrọ naa ni a ṣe afihan ni itọsọna iwọn
** Iyipada Maapu Ẹya **:
O jẹ dandan lati ṣe iyipada awọn ohun elo ti o wa ni isalẹ:
- O wu aise: C×H×W (ikanni × giga× iwọn)
- Yipada: W × C (Ipari ọkọọkan × Ẹya-ara)
- Ọna: Mu awọn ẹya-ara fekito fun kọọkan iwọn ipo bi a akoko igbese
## Alaye ti o dara julọ ti o wa ni isalẹ.
### Yiyan RNN
CRNNs maa n lo awọn LSTM bidirectional bi fẹlẹfẹlẹ lupu:
【拼音】 yǒu yī gè yǒu yī gè yǒu yī
- Contextual Information: Lo mejeeji iwaju ati sẹhin o tọ
- Awọn igbẹkẹle gigun: LSTM lagbara lati mu awọn igbẹkẹle ijinna gigun
- Gradient Stabilization: Yẹra fun iṣoro ti iparun gradient
** Iṣeto nẹtiwọọki **:
Input: W×512 (ọkọọkan ipari × ẹya-ara ẹya)
BiLSTM1: Awọn sẹẹli 256 ti o farasin (128 siwaju + 128 sẹhin)
BiLSTM2: Awọn sẹẹli 256 ti o farasin (128 siwaju + 128 sẹhin)
O wu: W×256 (ipari ọkọọkan × awọn iwọn ti o farasin)
### Awọn ilana Awoṣe Ọkọọkan
** Awoṣe Igbẹkẹle Akoko **:
Ïîýòîìó ýòîò ÷åëîâåê ìîåò áûòü íå ìåíåå ÷åì íà ýòîò ñ÷åò:
- Alaye ti ohun kikọ ti tẹlẹ ṣe iranlọwọ ni idanimọ ti ohun kikọ lọwọlọwọ
- Alaye fun awọn ohun kikọ ti o tẹle tun le pese ipo ti o wulo
- Alaye ti gbogbo ọrọ tabi gbolohun naa ṣe iranlọwọ lati disambiguate
** Awọn imudara Ẹya **:
Awọn ẹya ara ẹrọ ti a ṣe nipasẹ RNN ni awọn abuda wọnyi:
- Contextual-kókó: Awọn ẹya ara ẹrọ ti ipo kọọkan ni alaye ti o tọ
- Aitasera akoko: Awọn ẹya ara ẹrọ ni awọn ipo ti o wa nitosi ni ilọsiwaju kan
- Ọlọrọ Semantic: Daapọ wiwo ati awọn ẹya ọkọọkan
## Alaye ti o dara julọ ti awọn aami aisan ti o ni ibatan si awọn ibaraẹnisọrọ
### CTC siseto
CTC (Connectionist Temporal Classification) jẹ paati pataki ti CRNN:
** Ipa ti CTCs**:
- Adirẹsi Awọn ọran Titepote: Awọn gigun ọkọọkan titẹ sii ko baamu awọn gigun ọkọọkan ti o wu
- Ikẹkọ ipari-si-opin: Ko si iwulo fun awọn asọye titete ipele ti ohun kikọ silẹ
- Mu duplicates: Mu awọn ọran ti awọn ohun kikọ ẹda ni deede
** Bawo ni CTC ṣe n ṣiṣẹ **:
1. Faagun ṣeto aami: Ṣafikun awọn aami ofo lori oke ti ṣeto ohun kikọ atilẹba
2. Ọna Enumeration: Enumerates gbogbo awọn ọna titete ti o ṣeeṣe
3. Ọna iṣeeṣe: Ṣe iṣiro iṣeeṣe ti ọna kọọkan
4. Marginalization: akopọ awọn iṣeeṣe ti gbogbo awọn ọna lati gba awọn ọkọọkan iṣeeṣe
# Ìàòåðèàëû íà ñàéòå
** Aṣoju mathematiki **:
Ïîýòîìó ýòîò ÷åëîâåê ìîåò áûòü î÷åíü õîðîøî, ÷åì íà ýòîò ñ÷åò:
L_CTC = -log P(Y| X)
nibiti P(Y| (2) Ïîýòîìó ÿ íå ìîãó ñêàçàòü, ÷òî ÿ íå ìîãó ñêàçàòü:
P(Y| X) = σ_π∈B ^ (-1) (Y) P(π| X)
Nibi B ^ (-1) (Y) duro fun gbogbo awọn ipilẹ ti awọn ọna ti o le ṣe maapu si ọkọọkan ibi-afẹde Y.
** Siwaju-sẹhin algorithm **:
Lati ṣe iṣiro pipadanu CTC daradara, a lo algorithm siwaju-sẹhin fun siseto ìmúdàgba:
- Forward Algorithm: Ṣe iṣiro iṣeeṣe ti de ipinle kọọkan
- Backward Algorithm: Ṣe iṣiro iṣeeṣe lati ipinle kọọkan si opin
- Iṣiro Gradient: Ṣe iṣiro awọn gradients ni apapo pẹlu iṣeeṣe siwaju-sẹhin
## Ilana Ikẹkọ CRNN
#### Îáúåì ïðîèçâîäñòâà
** Iṣaju Aworan **:
- Iwọn deede: Ṣọkan giga aworan si awọn piksẹli 32
- Aspect Ratio Maintenance: Ṣetọju ipin ipin ti aworan atilẹba
- Iyipada Grayscale: Iyipada si aworan grayscale ikanni kan
- Iṣiro iṣiro: awọn iye ẹbun ti wa ni deede si [0,1] tabi [-1,1]
** Imudara data **:
- Awọn iyipada jiometirika: iyipo, titẹ, iyipada irisi
- Awọn ayipada ina: imọlẹ, awọn atunṣe itansan
- Afikun ariwo: Ariwo Gaussian, iyọ ati ariwo ata
- Blur: Išipopada blur, Gaussian blur
### Awọn imuposi Ikẹkọ
** Eto Oṣuwọn Ẹkọ **:
- Oṣuwọn ẹkọ akọkọ: Nigbagbogbo ṣeto si 0.001
- Ilana Ibajẹ: Ibajẹ Exponential tabi ibajẹ igbesẹ
- Igbimọ igbona: Awọn akoko diẹ akọkọ lo oṣuwọn ẹkọ kekere
** Awọn imuposi Regularization **:
- Dropout: Ṣafikun dropout lẹhin fẹlẹfẹlẹ RNN
- Àdánù ibajẹ: L2 regularization idilọwọ overfitting
- Ipele normalization: Lo ipele normalization ni CNN Layer
** Aṣayan Optimizer **:
- Adam: Oṣuwọn ẹkọ aṣamubadọgba, iyara iyara
- RMSprop: O dara fun ikẹkọ RNN
- SGD + Momentum: Aṣayan ibile ṣugbọn iduroṣinṣin
## Iṣapeye ati ilọsiwaju ti CRNN
### Iṣapeye faaji
** Awọn ilọsiwaju apakan CNN **:
- Awọn isopọ ResNet: Ṣafikun awọn isopọ ti o ku lati mu iduroṣinṣin ikẹkọ dara si
- DenseNet Fabric: Awọn isopọ ti o nipọn ṣe ilọsiwaju ẹya-ara multiplexing
- Ilana Akiyesi: Ṣafihan ifojusi aaye ni CNNs
** Awọn ilọsiwaju apakan RNN **:
- Rirọpo GRU: Lo GRU lati dinku iye awọn paramita
- Ayipada: Rọpo RNNs nipa lilo awọn ilana ifojusi ara ẹni
- Awọn ẹya ara ẹrọ pupọ: Ṣafikun awọn ẹya ara ẹrọ lati awọn irẹjẹ oriṣiriṣi
### Iṣapeye Iṣẹ
** Iyara iyara **:
- Iṣiro awoṣe: INT8 quantization dinku igbiyanju iṣiro
- Awoṣe pruning: Yọ awọn isopọ ti ko ṣe pataki
- Imọ Distillation: Kọ ẹkọ imọ ti awọn awoṣe nla pẹlu awọn awoṣe kekere
** Iṣapeye iranti **:
- Awọn ayẹwo gradient: Dinku ifẹsẹtẹ iranti lakoko ikẹkọ
- Adalu konge: Reluwe pẹlu FP16
- Ìmúdàgba aworan ti o dara ju: Iṣapeye awọn be ti awọn iṣiro aworan
## Awọn ohun elo gidi-aye
### Idanimọ ọrọ ti a fi ọwọ ṣe
** Awọn oju iṣẹlẹ Ohun elo **:
- Digitize awọn akọsilẹ ti a kọ pẹlu ọwọ
- Fọọmu autofill
- Idanimọ iwe itan
** Awọn ẹya imọ-ẹrọ **:
- Iyatọ ohun kikọ nla: Nilo awọn agbara isediwon ẹya-ara to lagbara
- Ṣiṣe Ikọlu Lemọlemọfún: Awọn anfani ti siseto CTC jẹ kedere
- Awọn ọrọ ti o tọ: Awọn agbara awoṣe ọkọọkan ti RNN jẹ pataki
### Idanimọ ọrọ ti a tẹjade
** Awọn oju iṣẹlẹ Ohun elo **:
- Digitize awọn iwe aṣẹ
- Idanimọ tikẹti
- Idanimọ ami
** Awọn ẹya imọ-ẹrọ **:
- Font Regularity: CNN ẹya-ara isediwon jẹ jo qà
- Typography ofin: Layout alaye le ṣee lo
- Awọn ibeere deede giga: Nilo atunṣe awoṣe daradara
### Idanimọ ọrọ iṣẹlẹ
** Awọn oju iṣẹlẹ Ohun elo **:
- Street View Text Recognition
- Idanimọ aami ọja
- Idanimọ ami ijabọ
** Awọn ẹya imọ-ẹrọ **:
- Complex Background: Nilo lagbara ẹya-ara isediwon
- Ibajẹ ti o lagbara: Apẹrẹ faaji ti o lagbara ni a nilo
- Awọn ibeere Akoko Gidi: Nilo iṣaro daradara
## Akopọ
Gẹgẹbi faaji Ayebaye ti OCR ẹkọ jinlẹ, CRNN ṣaṣeyọri yanju ọpọlọpọ awọn iṣoro ti awọn ọna OCR ibile. Ọna ikẹkọ opin-si-opin rẹ, imọran apẹrẹ laisi ipin ohun kikọ silẹ, ati ifihan ti siseto CTC gbogbo wọn pese awokose pataki fun idagbasoke atẹle ti imọ-ẹrọ OCR.
** Awọn ẹbun bọtini **:
- Ẹkọ Ipari-si-Opin: Simplifies apẹrẹ ti awọn eto OCR
- Ilana Modeli: Daradara nlo awọn ọkọọkan ini ti ọrọ
- CTC Alignment: Adirẹsi ọkọọkan ipari mismatch
- Faaji ti o rọrun: Rọrun lati ni oye ati imuse
** Itọsọna Idagbasoke **:
- Ifarabalẹ siseto: Ṣafihan ifojusi lati mu iṣẹ dara si
- Ayipada: Rọpo RNNs pẹlu ifojusi ara ẹni
- Multimodal Fusion: Darapọ awọn alaye miiran bi awọn awoṣe ede
- Lightweight oniru: awoṣe funmorawon fun awọn ẹrọ alagbeka
Aṣeyọri ti CRNN jẹ ẹri si agbara nla ti ẹkọ jinlẹ ni aaye ti OCR ati pese iriri ti o niyelori fun agbọye bi o ṣe le ṣe apẹrẹ awọn eto ẹkọ opin-si-opin ti o munadoko. Ninu àpilẹkọ ti n bọ, a yoo ṣe apejuwe awọn alaye ati awọn alaye ti o ni ibatan si awọn ohun elo ti o wa ni isalẹ.
Awọn afi:
CRNN
CNN
RNN
LSTM
CTC
OCR
Ẹkọ jinlẹ
Ipari-si-opin
Awoṣe ọkọọkan