티스토리 뷰

책/misc

1장. HTTP 개관

kingsubin 2022. 4. 24. 11:35

1장. HTTP 개관

1.1 HTTP: 인터넷의 멀티미디어 배달부

  • HTTP는 신뢰성 있는 데이터 전송 프로토콜을 사용하기 때문에, 데이터가 전송 중 손상되거나 꼬이지 않음을 보장한다.

1.2 웹 클라이언트와 서버

  • HTTP 클라이언트와 HTTP 서버는 월드 와이드 웹의 기본 요소다.

1.3 리소스

  • 웹 서버는 웹 리소스를 관리하고 제공한다. 웹 리소스는 웹 컨텐츠의 원천이다.
  • 가장 단순한 리소스는 파일 시스템의 정적 파일이다. (텍스트, HTML, 워드, 이미지, 동영상 그 외 모든 종류의 파일)
  • 그러나 리소스는 반드시 정적 파일이어야 할 필요는 없다.
  • 요약하자면, 어떤 종류의 콘텐츠 소스도 리소스가 될 수 있다.

미디어 타입

  • HTTP 는 웹에서 전송되는 객체 각각에 MIME(Multipurpose Internet Mail Extensions, 다목적 인터넷 메일 확장) 타입이라는 데이터 포맷 라벨을 붙인다.
  • 웹 서버는 모든 HTTP 객체 데이터에 MIME 타입을 붙인다. 웹브라우저는 서버로부터 객체를 돌려 받을 때, 다룰 수 있는 객체인지 MIME 타입을 통해 확인한다.
  • MIME 타입은 (/)으로 구분된 주 타입(primary object type)과 부 타입(specific subtype)으로 이루어진 문자열 라벨이다.
  • 수백 가지의 잘 알려진 MIME 타입과, 그보다 더 많은 실험용 혹은 특정 용도의 MIME 타입이 존재한다.
    • 예시
    • HTML 텍스트 문서: text/html
    • plain ASCII 텍스트 문서: text
    • JPEG 이미지: image/jpeg
    • GIF 이미지: image/gif

URI (Uniform Resource Identifier)

ex. http://www.joes-hardware.com/specials/saw-blade.gif : http 프로토콜을 사용하여 www.joes-hardware.com 으로 이동하여 /specials/saw-blade.gif 라는 리소스를 가져와라

URI에는 URL과 URN 이라는 것이 있다.

URL (Uniform Resource Locator)

  • 리소스 식별자의 가장 흔한 형태이다.
  • 특정 서버의 한 리소스에 대한 구체적인 위치를 서술한다.
  • 대부분의 URL은 세 부분으로 이루어진 표준 포맷을 따른다.
    1. scheme: 리소스에 접근하기 위해 사용되는 프로토콜, 보통 HTTP 프로토콜이다.
    2. 서버의 인터넷 주소: (ex. www.joes-hardware.com)
    3. 웹 서버의 리소스: (ex. /specials/saw-blade.gif)

URN (Uniform Resource Name)

  • 콘텐츠를 이루는 한 리소스에 대해, 리소스의 위치에 영향 받지 않는 유일무이한 이름 역할
  • 리소스를 옮기더라도 문제없이 동작한다.
    • ex. 다음의 URN (urn:ietf:rfc:2141)은 인터넷 표준 문서 ‘RFC 2141’ 이 어디에 있거나 상관없이 지칭하기 위해 사용할 수 있다.

URN 검색하다가 봤는데 URL 공유시 길이가 너무 길면 줄여주는 서비스(https://app.abit.ly/)가 있다. 길이가 긴 URL을 공유할 때 유용할지도..? 블로그 주소가 길진 않지만 한 번 테스트 해봤다. https://kingsubin.tistory.comhttp://abit.ly/saig5f

1.4 트랜잭션

  • HTTP 트랜잭션은 요청과 응답으로 구성되어 있다.
  • 이 과정은 HTTP 메시지라고 불리는 정형화된 데이터 덩어리를 이용해 이루어진다.

메서드

  • 모든 HTTP 요청 메시지는 한 개의 메서드를 갖는다.
  • 흔히 쓰이는 메서드는 아래와 같다.
    • GET, PUT, DELETE, POST, HEAD

상태 코드

  • 모든 HTTP 응답 메시지는 상태 코드와 함께 반환된다.
  • 흔히 쓰이는 상태 코드는 아래와 같다.
    • 200, 302, 404...
  • HTTP는 각 숫자 상태코드에 텍스트로 된 “사유 구절(reason phrase)” 도 함께 보낸다.
    • 단지 설명을 위해 포함된 것일 뿐

웹 페이지는 여러 객체로 이루어질 수 있다.

  • ‘웹페이지'는 보통 하나의 리소스가 아닌 리소스의 모음이다.

1.5 메시지

  • HTTP 메시지는 단순한 줄 단위의 문자열이다.
  • 이진 형식이 아닌 일반 텍스트이기 때문에 읽고 쓰기 쉽다.
  • HTTP 메시지는 다음의 세 부분으로 이루어진다.

시작줄: 무엇을 해야하는지, 무슨일이 일어났는지

헤더: 각 헤더 필드는 구문 분석을 위해 (:)로 구분되어 있는 하나의 이름과 하나의 값으로 구성됨. 추가하려면 한 줄을 더 하기만 하면 된다.

본문: 요청의 본문은 웹 서버로 데이터를 실어 보내며, 응답의 본문은 데이터를 반환한다. 본문은 임의의 이진 데이터를 포함할 수 있다. (이미지, 비디오, 오디오, 응용 소프트웨어)

1.6 TCP (Transmission Control Protocol, 전송 제어 프로토콜) 커넥션

TCP/IP

HTTP는 애플리케이션 계층 프로토콜이다. HTTP는 네트워크 통신의 핵심적인 세부사항에 대해서 신경 쓰지 않고 대중적이고 신뢰성 있는 인터넷 전송 프로토콜인 TCP/IP 에게 맡긴다.

TCP/IP는 TCP와 IP가 층을 이루는, 패킷 교환 네트워크 프로토콜의 집합이다. 각 네트워크와 하드웨어의 특성을 숨기고, 어떤 종류의 컴퓨터나 네트워크든 서로 신뢰성 있는 의사소통을 하게 해 준다.

TCP 는 다음을 제공한다.

  • 오류 없는 데이터 전송
  • 순서에 맞는 전달
  • 조각나지 않는 데이터 스트림

접속, IP 주소 그리고 포트번호

HTTP 클라이언트가 서버에 메시지를 전송할 수 있게 되기 전에, IP 주소와 포트번호를 사용해 클라이언트와 서버 사이에 TCP/IP 커넥션을 맺어야 한다.

TCP 에서는 서버 컴퓨터에 대한 IP 주소와 그 서버에서 실행 중인 프로그램이 사용중인 포트번호가 필요하다.

URL 을 이용해서 알아낼 수 있다. 숫자로된 IP 주소가 없는건 DNS를 통한 것이고, 포트번호가 없으면 기본값 80이라고 가정한다.

웹브라우저가 어떻게 HTTP를 이용해서 서버의 HTML 리소스를 사용자에게 보여주는지에 대한 순서

  1. 웹브라우저는 서버의 URL에서 호스트명을 추출
  2. 웹브라우저는 서버의 호스트 명을 IP로 변환
  3. 웹브라우저는 URL에서 포트번호(있다면) 추출
  4. 웹브라우저는 웹 서버와 TCP 커넥션을 맺음.
  5. 웹브라우저는 서버에 HTTP 요청을 보냄.
  6. 서버는 웹브라우저에 HTTP 응답을 돌려줌.
  7. 커넥션이 닫히면, 웹브라우저는 문서를 보여준다.

기본 포트 번호를 80이라고 가정한다고 하는데 http 기준을 설명한거고 https는 443이 맞는듯

텔넷(Telnet)을 이용한 예제

텔넷은 원격 터미널 세션을 위해 흔히 사용되지만 HTTP 서버를 포함한 일반적인 TCP 서버에 연결하기 위해 사용될 수도 있다.

책 예시에서는 www.joes-hardware.com 페이지를 계속 운영한다고 하고 요청을 보내는데 망했나보다.

telnet www.joes-hardware.com 80

GET /tools.html HTTP/1.1

Host: www.joes-hardware.com

telnet 말고도 nc(NetCat), curl 같은 것들이 있는데 주로 curl을 사용하는 듯

프로토콜 버전

초기버전 0.9, 금방 1.0으로 대체되었음. 1.0부터 널리 쓰이기 시작한 버전이다.

1.0에서의 단점들을 보충해 1.1이 만들어지고 가장 많이 사용한다.

책이 오래되어서 인지 2.0 까지 말하는데 여기서(https://developer.mozilla.org/ko/docs/Web/HTTP/Basics_of_HTTP/Evolution_of_HTTP#http/3 - http over quic) 3.0에 대해서도 설명한다.

1.8 웹의 구성요소

인터넷과 상호작용 할 수 있는 웹 애플리케이션은 많다.

  • 프록시: 클라이언트와 서버 사이에 위치한 HTTP 중개자
  • 캐시: 많이 찾는 웹페이즈를 클라이언트 가까이에 보관하는 HTTP 창고
  • 게이트웨이: 다른 애플리케이션과 연결된 특별한 웹 서버
  • 터널: 단순히 HTTP 통신을 전달하기만 하는 특별 프록시
  • 에이전트: 자동화된 HTTP 요청을 만드는 semi-intelligent 웹 클라이언트

프록시

  • 클라이언트와 서버 사이에 위치하여, 클라이언트의 모든 HTTP 요청을 받아 서버에 전달한다.
  • 사용자를 대신해서 서버에 접근한다.
  • 주로 보안을 위해 사용된다.
  • 요청과 응답을 필터링한다.

캐시

  • 웹캐시와 캐시 프록시는 자신을 거쳐 가는 문서들 중 자주 찾는 것의 사본을 저장해 두는 특별한 종류의 HTTP 프록시 서버이다.
  • 다음번에 클라이언트가 같은 문서를 요청하면 캐시가 갖고 있는 사본을 받을 수 있다.
  • 캐시 프록시는 성능 향상을 위해 자주 찾는 문서의 사본을 저장해둔다.

게이트웨이

  • 다른 서버들의 중개자로 동작하는 특별한 서버
  • 주로 HTTP 트래픽을 다른 프로토콜로 변환하기 위해 사용된다.
  • 스스로가 리소스를 갖고 있는 진짜 서버인것 처럼 요청을 다룬다.
  • 클라이언트는 자신이 게이트웨이와 통신하고 있음을 알아채지 못한다.

터널

  • 두 커넥션 사이에서 raw 데이터를 열어보지 않고 그대로 전달해주는 HTTP 애플리케이션
  • 주로 비 HTTP 데이터를 하나 이상의 HTTP 연결을 통해 그대로 전송해주기 위해 사용된다.
  • 대표적인 예) 암호화된 SSL 트래픽을 HTTP 커넥션으로 전송함으로써 웹 트래픽만 허용하는 사내 방화벽 통과시키는 것

에이전트

  • 사용자를 위해 HTTP 요청을 만들어주는 클라이언트 프로그램
  • 웹 요청을 만드는 애플리케이션은 뭐든 HTTP 에이전트이다.
  • 자동화된 에이전트는 스파이더나 웹로봇 같은 다양한 것들이 있다.

' > misc' 카테고리의 다른 글

3장. HTTP 메시지  (0) 2022.05.02
2장. URL과 리소스  (0) 2022.04.25
HTTP 완벽 가이드 책 샀다.  (2) 2022.02.10
프로그래밍 면접 이렇게 준비한다 책 샀다.  (0) 2021.08.29
Section5. 빠른 정렬  (0) 2021.08.06