#데이터셋 만들기 parquet형식을 만들어야된다.
# 한글모델 양자화를 위해 코알파카셋을 사용한다.
from datasets import load_dataset
ds = load_dataset("beomi/KoAlpaca-v1.1a", split="train")
ds_list = []
for i in range(len(ds)):
ds_list.append(f"### User:\n{ds[i]['instruction']}\n\n### Assistant:\n{ds[i]['output']}")
df = pd.DataFrame({'instruction':ds_list})
df.to_parquet("./ds.parquet")
# safetensors 형식으로 저장해줘야된다.
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto",
)
model.save_pretrained(f"{model_name_or_path}/quant_model/",max_shard_size="40GB", safe_serialization=True)