| vocab_size | int, optional | 30522 | BERT 모델의 vocabulary size를 나타낸다. | 
| hidden_size | int, optional | 768 | Encoder layer와 pooler layer의 차원 크기 | 
| num_hidden_layers | int, optional | 12 | Encoder layer의 수 | 
| num_attention_heads | int, optional | 12 | Encoder layer 내의 attention head 수 | 
| intermediate_size | int, optional | 3072 | Encoder layer 내의 FeedForward layer의 차원 크기 | 
| hidden_act | str, or Callable | “gelu” | Encoder/Pooler layer 내의 activation function 종류 | 
| hidden_dropout_prob | float, optional | 0.1 | Embedding, Encoder, Pooler layer 내 모든 fully connected layer에서 사용되는 dropout probability 값. | 
| attention_probs_dropout_prob | float, optional | 0.1 | Attention probability 값들에 적용되는 dropout probability 값. | 
| max_position_embeddings | int, optional | 512 | 모델이 한 번에 입력받을 수 있는 최대 token 수 (최대 문장 길이) | 
| type_vocab_size | int, optional | 2 | BertModel이나TFBertModel을 실행할 때 사용되는token_type_ids의 vocabulary size | 
| initializer_large | float, optional | 0.02 | 모든 가중치 초기화에 사용되는 truncated_normal_initializer의 standard deviation 값 | 
| layer_norm_eps | float, optional | 1e-12 | LayerNorm레이어에 사용되는 eps 값 | 
| position_embedding_type | str, optional | “absolute” | Position embedding의 종류. "absolute","relative_key","relative_key_query"중에 하나 고르자. |