이미지 cnn 예제

On agosto 1, 2019 by adminmg

Facebook이 그룹 사진에 있는 사람들에게 라벨을 붙이는 방법을 궁금해한 적이 있습니까? 그럼 당신이 있다면, 여기에 대답입니다. 당신이 보는 매력적이고 멋진 찾고 사용자 인터페이스 뒤에, 당신이 페이스 북에 업로드 하는 모든 그림의 얼굴을 인식 하는 복잡 한 알고리즘그리고 그들은 항상 개선 을 배우고 있다. 이미지 분류는 AI가 해결에 적용되는 가장 일반적인 문제 중 하나입니다. 이 문서에서는 CNN의 기본 사항과 이미지 분류 작업에 사용하는 방법에 대해 설명합니다. 이미지에는 5×5 피처 맵과 3×3 필터가 있습니다. 필터가 3×3 그리드를 가넬 수 있는 가운데에는 창이 하나뿐입니다. 출력 피처 맵은 3×3 차원과 함께 두 개의 타일로 축소됩니다. 이제 mnist_classifier에서 train_input_fn을 만들고 train()을 호출하여 수행할 수 있는 모델을 학습할 준비가 되었습니다. numpy_input_fn 호출에서 교육 피처 데이터와 레이블을 각각 x(지시자) 및 y로 전달합니다. batch_size를 100으로 설정합니다(즉, 각 단계에서 100개의 예제의 minibatchs에서 모델이 학습됩니다). num_epochs=없음은 지정된 단계에 도달할 때까지 모델이 학습된다는 것을 의미합니다.

또한 셔플=True를 설정하여 교육 데이터를 섞습니다. 그런 다음 모델을 단일 단계로 학습하고 출력을 기록합니다: 문제에 따라 샘플 네트워크가 더 좋거나 나빠지는 경우. 예를 들어, 자전거, 비행기 및 자동차에 분류기 훈련을 하면 교육 데이터가 적어지고 정확도가 높아집니다. 그러나 더 어려운 문제를 가지고 있다면 많은 데이터가 필요하며 여전히 충분하지 않을 수 있습니다. 이 예제에서는 가중치가 연결의 속성, 즉 각 연결에 다른 가중치 값을 가지는 반면 바이어스는 뉴런의 속성임을 알 수 있습니다. 이것은 출력 y를 생성하는 sigmoid 뉴런의 전체 그림입니다: 이미지가 Keras ImageDataGenerator 클래스로 전처리될 때 적은 데이터를 사용할 수 있습니다. Îhis 클래스는 여러 개의 임의 변환을 만들 수 있으며, 이는 필요할 때 이미지 수를 늘리는 데 도움이 됩니다. 보폭=는 컨볼루션을 수행할 때 필터를 이동하는 양을 정의합니다. 이 함수에서는 크기의 텐서여야 합니다.=4 즉[batch_stride x_stride y_stride 깊이_보폭]. batch_stride는 배치에서 이미지를 건너뛰고 싶지 않기 때문에 항상 1입니다.

x_stride 및 y_stride는 대부분 동일하며 선택은 네트워크 디자인의 일부이며 예제에서는 1로 사용합니다. depth_stride는 깊이를 따라 건너뛰지 않을 때 항상 1로 설정됩니다. 이 문제를 해결하기 위해 컴퓨터는 기본 레벨의 특성을 찾습니다. 인간의 이해에서 이러한 특성은 예를 들어 트렁크 또는 큰 귀입니다. 컴퓨터의 경우 이러한 특성은 경계 또는 곡률입니다. 그런 다음 컨볼루션 레이어 그룹을 통해 컴퓨터는 보다 추상적인 개념을 구성합니다. 당신이 볼 수 있듯이, 각 컨볼루션 후, 출력의 크기가 감소 (이 경우 우리는 32 * 32에서 28 * 28로 가는). 많은 레이어가있는 심층 신경망에서 출력은 이런 식으로 매우 작아지므로 잘 작동하지 않습니다. 따라서 출력이 입력 레이어와 크기가 같도록 입력 레이어의 경계에 영점을 추가하는 것이 표준 관행입니다.

따라서 이 예제에서는 입력 레이어의 양쪽에 크기 2의 패딩을 추가하면 출력 레이어의 크기는 구현 목적에서도 훌륭하게 작동하는 32*32*6이 됩니다. 당신이 크기의 입력을 가지고 있다고 가정 해 봅시다 N * N, 필터 크기는 F, 당신은 보폭으로 S를 사용하고 입력은 크기 P의 0 패드로 추가됩니다. 그런 다음 출력 크기는 컴퓨터 비전과 신경망이 기계 학습 기술의 새로운 IT입니다. 신경망의 발전과 픽셀 밀도 숫자로 이미지를 읽을 수 있는 기능으로 많은 기업들이 이 기술을 사용하여 더 많은 데이터를 찾고 있습니다. 예를 들어, Speed Camera는 컴퓨터 비전을 사용하여 과속 제한을 초과하는 자동차의 번호판 사진을 찍고 번호판 번호를 알려진 데이터베이스와 일치하여 티켓을 전송합니다. 이는 이미지 분류보다 개체 문자 인식과 더 관련이 있지만 둘 다 컴퓨터 비전과 신경망을 작동의 기반으로 사용합니다.

Comments are closed.