>
Home

登龙(DLonng)

选择大于努力

Linux 高级编程 - 网络编程基础


版权声明:本文为 DLonng 原创文章,可以随意转载,但必须在明确位置注明出处!

网络编程基础概念

网络编程中有许多基础概念必须了解,比如 OSI,TCP/IP,字节序列等,这些都是开发网络应用的基础,可以帮助我们更好的理解网络程序的工作原理,来一起学习下一些比较重要的概念。

OSI 开放系统互联模型

OSIOpen System Interconnection)是国际标准化组织(ISO)制定的计算机互联的标准,是设计和描述计算机网络通信的基本框架。OSI 模型把网络通信分为 7 层,如下图所示: OSI

OSI 模型的设计目的是成为一个所有销售商都能实现的开放网络模型,来克服使用众多私有网络模型所带来的困难和低效性,我们熟知的 TCP/IP 协议也是以 OSI 为基础的。

TCP/IP 协议簇体系结构

TCP/IP 协议是在 OSI 模型之上开发的通信协议,简化为 4 层:

TCP_IP

TCP/IP 协议没有表示层和会话层,其中每层对应到 OSI 的协议主要有下面这些:

  • 应用层:TFTP,HTTP,FTP 等
  • 传输层:TCP,UDP
  • 网络层:IP,IGMP 等
  • 数据层:MTU 等
  • 物理层:ISO 2110,IEEE802 等

我们经常见到如:HTTP,TCP,UDP,IP,来了解下其中比较常用的 TCP 和 UDP 协议。

TCP/IP 协议基础

TCP/IP 包含许多协议,比如 TCP,UDP,IP,HTTP,FTP 等,平常上网都会使用到它们,必须要了解些概念:

  • TCP(Transport Control Protocol):传输控制协议
  • UDP(User Datagram Protocol):用户数据报协议
  • IP(Internetworking Protocol):网间协议
  • HTTP(Hypertext Transfer Protocol):超文本传输协议
  • FTP(File Transfer Protocol):文本传输协议

网络编程中主要使用 TCP 和 UDP 的概念,这里介绍这 2 者,先来看看 TCP 协议。

1. TCP 协议

TCP(Transmission Control Protocol 传输控制协议)是一种面向连接的、可靠的、基于字节流的传输层通信协议,它有如下的特点:

  • 面向连接的传输
  • 端到端的通信
  • 高可靠性,确保传输数据的正确性,不出现丢失或者乱序
  • 全双工方式传输
  • 采用字节流的方式,即以字节为单位传输字节序列
  • 紧急数据传送功能
  • 一对一传输

2. UDP 协议

UDP(User Datagram Protocol)的简称,即是用户数据报协议,是一种无连接的传输层协议,提供面向事务的简单不可靠信息传送服务,它有如下特点:

  • 面向无连接的传输
  • 不可靠的数据传输服务
  • 时间延迟小
  • 实时性强
  • 支持一对一,一对多,多对多的连接
  • 不含拥塞控制机制,进程能够以任意速率发送数据

TCP 和 UDP 的区别

两者主要有 5 点区别:

  • TCP 协议面向连接,UDP 面向非连接
  • TCP 传输慢,UDP 传输快
  • TCP 保证数据顺序,UDP 不保证
  • TCP 保证数据正确性,UDP 可能丢包
  • TCP 对系统资源要求多,UDP 要求少

TCP/IP 通信过程

两台主机使用 TCP/IP 相关的协议通信的基本过程是:假设应用层使用的是 HTTP 协议,除物理层是实际传输数据外,其他对等层只是虚拟通信,对等层一般需要遵循相同的协议,每一层传输数据只与相邻的上下层有关系。TCP 层及以下是由操作系统内核实现,是处理通信细节,而应用程序是通过 socket 来处理应用程序网络通信的细节。如下图所示:

TCP CON

TCP/IP 数据包

通信过程中传输的是一个个的数据包,因为通信协议包含许多层,所以数据包在每一层都会进行相关的处理。以 TCP 数据包为例,最后的数据包含有多个部分:

TCP DATA

数据包在传输到达目的主机后又会反向解析(从下到上去掉头部信息),最后只剩下用户数据发给指定程序。

Socket 简介

Socket 套接字是由 BSD(加州大学伯克利分校软件研发中心)开发的一套独立于具体协议的网络编程接口,应用程序可以用这个接口进行网络通信。但 Socket 实际上还是属于进程间通信(IPC),因为网络通信实质上是不同机器上的进程之间的通信。Socket 接口主要有下面这些特征:

  • 是一个编程接口
  • 是一个文件描述符(Linux 下一切皆文件)
  • 不局限与 TCP/IP 协议
  • 面向有连接协议(TCP)和无连接协议(UDP)

5 种 Socket 类型

在使用 socket 接口进行编程时,必须明确所使用的 socket 类型,主要有 5 种类型:

  • SOCK_STREAM:面向顺序,可靠,数据完整,基于字节流的 TCP 协议,是使用最多的类型
  • SOCK_DGRAM:面向无连接,固定长度,不可靠的 UDP 协议
  • SOCK_SEQPACKET:双线路,可靠,固定长度,必须把数据包完整的接受才能读取它
  • SOCK_RAW:提供原生的网络访问
  • SOCK_RDM:很少使用的类型,在大部分 OS 上没有实现

IP 地址和端口号

在 Socket 网络编程中经常使用下面的结构体来定义要连接的 IP 和端口:

struct sockaddr_in {
    // 地址家族,常用 AF_INET 代表 TCP/IP 协议簇
    short int sin_family;
    // 端口号,网络字节序
    unsigned short int sin_port;
    // IP 地址,网络字节序
    struct in_addr sin_addr;
}

// IP 地址的结构定义
typedef uint32_t in_addr_t;
struct in_addr {
    in_addr_t s_addr;
};

具体的代码初始化方法会在下一篇的 Web 服务器项目中介绍,这里以概念为主。

网络字节序

不同的机器在网络上以字节流的方式来传输数据,必须要保证数据从一端传输到另一端能够解析成原来的样子,但是不同的机器的字节序是不同的,所以在进行网络传输的时候必须统一传输的字节序。网络字节序是 TCP/IP 中规定好的一种数据表示格式,它与具体的 CPU 类型、操作系统等无关,从而可以保证数据在不同主机之间传输时能够被正确解释,网络字节顺序采用 big endian(大端)排序方式

这里再介绍下机器的字节序:

  1. Little endian 小端:低位字节存储在低位地址
  2. Big endian 大端:高位字节存储在低位地址

例如,在内存中存储 0x01020304 的 2 种方式,括号中是内存地址 0x1000 - 0x1003:

  1. 小端存储:04(0x1000) 03(0x1001) 02(0x1002) 01(0x1003)
  2. 大端存储:01(0x1000) 02(0x1001) 03(0x1002) 04(0x1003)

端口字节序转换

在使用 socket 进行网络编程时要将 IP 和端口在网络字节序和主机字节序间相互转换,例如下面的端口字节序转换函数:

#include <arpa/inet.h>

// host to net long  主机序 -> 网络序
uint32_t htonl(uint32_t hostlong);

// host to net short 主机序 -> 网络序
uint16_t htons(uint16_t hostshort);

// net to host long  网络序 -> 主机序
uint32_t ntohl(uint32_t netlong);

// net to host short 网络序 -> 主机序
uint16_t ntohs(uint16_t netshort);

例如将端口 1234 转换成网络字节序的代码如下:

struct sockaddr_in myaddr;
// convert to net port
myaddr.sin_port = htons(1234);
// convert to host port
uint16_t port = ntohs(myaddr.sin_port);

IP 字节序转换

IP 字节序转换函数将 IP 字符串和对应的整数值相互转换,名称的命名与端口转换函数类似:

#include <sys/socket.h>
#include <netinet/in.h>
#include <arpa/inet.h>

// inet address to network
int inet_aton(const char *cp, struct in_addr *inp);
// inet network to address
char *inet_ntoa(struct in_addr in);
// convert to network ip
in_addr_t inet_addr(const char *cp);

例如转换 IP:192.168.0.1 的代码如下:

struct in_addr my_addr;
// convert to network number
inet_aton("192.168.0.1", &my_addr);

// convert to address string
char *ip_string = inet_ntoa(my_addr);

// convert "127.0.0.1"
struct sockaddr_in client_addr;
client_addr.sin_addr.s_addr = inet_addr("127.0.0.1");

域名和 IP 地址之间的转换

有时候需要通过网站的域名来获取它的 IP 地址,这时候就要用到下面的转换函数:

#include <netdb.h>

/*
 * name: 是域名字符串,例如 "www.baidu.com"
 * return: 域名结构体
 */
struct hostent *gethostbyname(const char *name);

struct hostent {
	char  *h_name;            /* 地址名称 */
	char **h_aliases;         /* 地址别名 */
	int    h_addrtype;        /* 地址类型 */
	int    h_length;          /* ip 地址长度 */
	char **h_addr_list;       /* ip 地址数组,一个域名可能对应多个 IP */
}

// 第一个 IP 地址
#define h_addr h_addr_list[0]

例如根据百度域名来获取它的 IP:

// 获取百度的域名结构
struct hostent* baidu_host = gethostbyname("www.baidu.com");

// 获取第一个百度 IP
struct in_addr baidu_addr;
baidu_addr.s_addr = (uint32_t)(baidu_host->h_addr);

// 转换成主机地址
char *baidu_ip_addr = inet_ntoa(baidu_addr);

结语

关于 Linux 网络编程基础还有很多概念,本次主要介绍了一些很重要和很常见的点,这些技术点在实际的编程中都会使用到,所以必须要掌握。对于想要系统学习计算机网络的同学可以参考谢希任老师的《计算机网络》一书。

那么本次就介绍到这里,我们下次再见 :)

本文原创首发于微信公号「登龙」,分享机器学习、算法编程、Python、机器人技术等原创文章,扫码即可关注

DLonng at 09/06/17