����λ�ã���ҳ > �����̳� > �̳� > TGI ��-LoRA: ����һ�Σ��㶨 30 ��ģ�͵���������
���Ƿ������������ AI ģ���������ĸ����Ժ͸߳ɱ��� ��ô�� �������Բ���һ�ξ͸㶨 30 ��ģ�������������Σ� �ڵ���� ML �����У���Щϣ����ַ��������ݵļ�ֵ����֯�������ջ����һ����΢�������硱����������磬������֯�ṹ������ģ�ͣ�����ÿ��ģ�Ͷ�����ض���������˸߶��ػ������ǣ���
���Ƿ������������ AI ģ���������ĸ����Ժ͸߳ɱ��� ��ô�� �������Բ���һ�ξ͸㶨 30 ��ģ�������������Σ� �ڵ���� ML �����У���Щϣ����ַ��������ݵļ�ֵ����֯�������ջ����һ����΢�������硱����������磬������֯�ṹ������ģ�ͣ�����ÿ��ģ�Ͷ�����ض���������˸߶��ػ������ǣ���δ���Ϊÿ��ϸ��Ӧ�ò���ģ�����������鷳�ͳɱ��أ���-LoRA �����ṩ��һ����DZ���Ĵ𰸡�
����֯���ԣ�����΢���������ģ����������ģ�Ô�����:
��֮��΢��ʹ��֯�ܹ��ͷ������ݵļ�ֵ��������ʹ������еġ��߶�רҵ��������ʱ���������Ʊ����Ϊ��Ҫ���������Ըı���Ϸ����
����ȥǰ����������ɶ�������еģ����������ģ�� (LLM) ��������˶෽�����ս�����𵥸�ģ�͵ijɱ��Ͳ����������Ѿ�������ͷ���ˣ�������˵ n ��ģ���ˡ�����ζ�ţ���Ȼ΢�������ã��������� LLM �IJ���ͷ����ø�������Ҳ��������ʵ��
��ν������Ҫ��Ҫ�������⣬��ʱ���Ӧʱ�����ˡ�TGI ����Ƴ����¹��� - ��-LoRA ���� (???)��
LoRA �� �ͽ����� ����һ�ֶ�Ԥѵ����ģ�ͽ��и�Ч΢���ļ����������˼������������ѵ������ģ�ͣ�����ѵ��һС���ֳ�Ϊ�������IJ������Ϳ�ʹԤѵ����ģ����Ӧ�ض�������Щ�������Ĵ�С��Ԥѵ�� LLM ��ȣ�ͨ��������Լ 1% �Ĵ洢���ڴ濪�������ܴﵽ��ȫģ��΢����ģ���൱��Ч����
LoRA �����Ժô��ǣ���ͨ�������ڴ�����������΢���ɱ����������� �������������� ������ С���ݼ� ��Ч�����á�
![]() |
---|
ͼ 1��LoRA ��� |
��ѵ�������У�LoRA �ᶳ��Ôģ��Ȩ��
W
��������������
A
��
B
����΢������ʹ��΢�����Ӹ�Ч��֪����һ�������ܱȽ���������ͼ 1 �� LoRA ģ�������Ĺ���Ô���ˡ����Ǵ�Ԥѵ��ģ��
Wx
�л�ȡ�������������ͽ�������
BAx
���
[6]
��
�˽��� LoRA �ĵͽ�����Ļ���˼������ǿ��������о�һ�¶�-LoRA �����ˡ��������ܼ�: ����һ������Ԥѵ��ģ�ͺ�һЩ��������������Щ����΢���ض��� LoRA����-LoRA ������һ�ָ��ݴ�������̬ѡ������ LoRA �Ļ��ơ�
![]() |
---|
ͼ 2����-LORA ��� |
ͼ 2
չʾ�����ֶ�̬·�ɵĹ���Ô����ÿ���û����󶼰�������
x
�Լ��������Ӧ LoRA �� id (���dz�Ϊͬ���칹�û�����)��LoRA id ��Ϣʹ�� TGI ����ƾ��ѡ����ȷ�� LoRA ��������
��-LoRA ���������ǽ��貿��һ������ģ�͡��������� LoRA ��������С����������Լ��ض���������������õ����ڴ����⡣��ע�⣬�����ܼ��ض��ٸ�������ȡ������Ŀ��� GPU ��Դ�Լ��㲿���ģ�͡�����Ч��ʵ�����൱����һ�β�����֧���˶������΢����ģ�͡�
LoRA Ȩ�صĴ�С���Ⱥ����������IJ�ͬ����ͬ��������ͨ�����dz�С����߸����һ��ֱ��ӡ��: predibase/magicoder Ϊ 13.6MB������ mistralai/Mistral-7B-v0.1 �ߴ� (14.48GB) �� 1/1000����Զ��ԣ��� 30 �����������ص� RAM ��ֻ���� VRAM ���� 3%������ڴ����������˵���������⡣��ˣ����ǿ���һ�β�����ģ�͡�
���ȣ�����Ҫѵ�� LoRA ģ�Ͳ�����������Ȩ�ء�������ڴ˴��ҵ� LoRA ΢����ص� ָ�� ����ע�⣬���㽫΢�����ģ�����͵� Hub ʱ��ֻ���������������������������ĺϲ�ģ�͡��� Hub ���� LoRA ������ʱ�����������ģ�Ϳ��ƶϳ�����ģ�Ͳ����䵥�����ء�����������֧�֣������������ǵ� ר��֧�ּƻ� ������Ϊ�ض����������Լ��� LoRA ʱ�������ļ�ֵ�Ż����֡�
��ijЩ��֯���ԣ�Ϊ�Լ�������ѵ��һ�� LoRA ���ܱȽ����ѣ���Ϊ���ǿ���ȱ����Ӧ��רҵ֪ʶ��������Դ����ʹѡ���˻���ģ�Ͳ�׼���������ݣ����滹��Ҫ�������¼�����̽�����οռ䣬�ҵ����Ӳ����Դ����д���룬Ȼ������������������񣬼�ʹ���ھ���ḻ���Ŷ���˵��Ҳ����ν����ޡ�
AutoTrain �ɰ�������������һ�ż���AutoTrain ��һ���޴�����������ֻ�赥��������꼴��ѵ������ѧϰģ�͡������ṩ�˶���ʹ�� AutoTrain �ķ��������� ���ذ�װ �⣬���ǻ�֧��:
AutoTrain ���� | Ӳ������ | ������ | ��ע |
---|---|---|---|
Hugging Face Space | ���� GPU ������Ӳ�� | �޴��� | ������� |
DGX �� | ��� 8xH100 GPU | �޴��� | �����˴�ģ�� |
Google Colab | ���� T4 GPU | �ʹ��� | ����Сģ���Լ��������ģ�� |
������ Predibase �� LoRA Land Ϊ������Ҫʹ���������� LoRA ������:
TGI �ĵ� �����кܶ������β��� TGI ��������Ϣ��������ǽ�����һЩҪ��:
v2.1.1
����°汾�� TGI
mistralai/Mistral-7B-v0.1
LORA_ADAPTERS
��������
LORA_ADAPTERS=predibase/customer_support,predibase/magicoder
model=mistralai/Mistral-7B-v0.1
# share a volume with the Docker container to avoid downloading weights every run
volume=$PWD/data
docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data \
ghcr.io/huggingface/text-generation-inference:2.1.1 \
--model-id $model \
--lora-adapters=predibase/customer_support,predibase/magicoder
�����ն� ֧�ֶ��� GPU ������ AI ���ٿ� ��ֻ�������¼��ɿ� AWS��GCP �Լ� Azure ����ʹ�� GUI �����൱���ס�����Ĭ��ʹ�� TGI �����ı����� (��Ҳ���� ѡ�� ʹ���Լ��� docker ����)��
Ҫ�������ն���ʹ�ö�-LoRA ������ֻ����ת�� ����̨ ��Ȼ��:
mistralai/Mistral-7B-v0.1
��
|
����
|
Ӳ��
AWS
|
us-east-1
|
Nvidia L4
�ı�����
LORA_ADAPTERS=predibase/customer_support,predibase/magicoder
�����˵�
��
��ע�⣬����ֻ���������ã�����Ը�����Ҫ���������ý������á�
![]() |
---|
ͼ 3����-LoRA �����ն� |
![]() |
---|
ͼ 4����-LoRA �����ն� 2 |
��Щ�˿����е� ������ ����˲���ʹ����꣬���ǶԴ˲������� [?]����ʱ�����ü���Ҳ��ͨ�������Զ�ִ�������������dz��򵥡�
from huggingface_hub import create_inference_endpoint
# Custom Docker image details
custom_image = {
"health_route": "/health",
"url": "ghcr.io/huggingface/text-generation-inference:2.1.1", # This is the min version
"env": {
"LORA_ADAPTERS": "predibase/customer_support,predibase/magicoder", # Add adapters here
"MAX_BATCH_PREFILL_TOKENS": "2048", # Set according to your needs
"MAX_INPUT_LENGTH": "1024", # Set according to your needs
"MAX_TOTAL_TOKENS": "1512", # Set according to your needs
"MODEL_ID": "/repository"
}
}
# Creating the inference endpoint
endpoint = create_inference_endpoint(
name="mistral-7b-multi-lora",
repository="mistralai/Mistral-7B-v0.1",
framework="pytorch",
accelerator="gpu",
instance_size="x1",
instance_type="nvidia-l4",
region="us-east-1",
vendor="aws",
min_replica=1,
max_replica=1,
task="text-generation",
custom_image=custom_image,
)
endpoint.wait()
print("Your model is ready to use!")
��������ô�Լ��Ҫ 3 �� 40 �롣��ע�⣬����ģ�Ϳ�����Ҫ������ʱ�䡣�������������ʱ�������⣬���� GitHub ���ύ ���� ��
��ʹ�������ն�ʱ������Ҫָ��
adapter_id
�����������һ�� cURL ʾ��:
curl 127.0.0.1:3000/generate \
-X POST \
-H 'Content-Type: application/json' \
-d '{
"inputs": "Hello who are you?",
"parameters": {
"max_new_tokens": 40,
"adapter_id": "predibase/customer_support"
}
}'
���ﻹ��һ��ʹ��
InferenceClient
��ʾ������ʾ������
Hugging Face Hub Python ��
����ȷ�����õ���
huggingface-hub>=0.24.0
���ڱ�Ҫ����£��㻹��
��¼
hub��
from huggingface_hub import InferenceClient
tgi_deployment = "127.0.0.1:3000"
client = InferenceClient(tgi_deployment)
response = client.text_generation(
prompt="Hello who are you?",
max_new_tokens=40,
adapter_id='predibase/customer_support',
)
���� ���� �����۵ģ����Dz����ǵ�һ�����з�ġ�������Ķ�һ�� LoRAX ������Ŷ� Predibase ��������ƪ��ɫ ���� ����Ϊ����������Ҫ�������ǵĹ�����
![]() |
---|
ͼ 5����-LoRA �ɱ� ������ TGI ��Ӣΰ�� L4 �ϲ����� mistralai/Mistral-7B-v0.1 ����ģ�ͣ��� �����ն� �ɱ� Ϊ 0.8 ��Ԫ/Сʱ��ÿ������ 75 ������ƽ��ÿ�������� 450 �������Ԫ��234 �������Ԫ��������Ӧ���õ� GPT3.5 Turbo �ɱ������˶Աȡ� |
��-LoRA �����һ��ô��ǣ� ����Ϊ���ģ�ͽ��ж�β��� �����Ҫ���˵öࡣ����ֱ���������Ϊ��ģ�Ͳ���Ҫ��������Ȩ�أ�����������СС������������ͼ 5 ��ʾ����ʹ�� TGI ��-LoRA ʱ����ʹ���Ӹ���ģ�ͣ�ÿ����Ԫ�ijɱ�Ҳ����ͬ�ġ��������ʹ�ö�-LoRA��ÿ�ಿ��һ��΢��ģ�ͣ�TGI �ijɱ��ͻ���֮�������ӡ�
![]() |
---|
ͼ 6����-LoRA ����ģʽ |
��������ģ��ʱ��һ����ʵ����ս��ÿ��ģ�͵�ʹ��ģʽ�кܴ����: ijЩģ�͵�ʹ���ʿ��ܽϵ�; ��Щģ�͵�ʹ��ģʽ�������󷢵ģ���Щ�����Ǹ�Ƶ�ġ���ʹ����չ��÷dz����ѣ������ǵ�ÿ��ģ���໥���������ʱ�򡣵�������һ�� GPU ʱ������ֺܶࡰ���롱������������������ۻ������յ��¾޴���˷ѡ�����������£�����Ҫ����޶ȵ����ÿ�� GPU �������ʣ�������ʹ���κζ�����Դ������Ҫȷ�����㹻�� GPU��ͬʱ��֪��Щ GPU �����ã�̫���ˣ�
��ʹ�ö�-LoRA ����ʱ�������ƽ�ȶ��ˡ���ͼ 6�����ǿ��Կ�����-LoRA ����ģʽ�dz�ƽ�ȣ���������ijЩ LoRA ������ʹ��ģʽ�����ȶ���ͨ�����϶�� LoRA������ʹ��ģʽ���ƽ�ȣ�����չ������ס���ע�⣬���Ͻ��ṩ��һ�����ӣ����Լ��Ĺ������ص�ʹ��ģʽ����Լ���-LoRA ����ܰ���æ����Ҫ���Լ�������������ǵ�Ŀ���ǣ����迼�� 1 ��ģ�͵���չ�������迼�� 30 ��ģ�͵���չ��
AI ��չ�������죬��ʵ����Ӧ�����Ӧ�ԣ��������ѡ����һ������µ�ģ����Ϊ����ģ�ͣ�Ӧ����ô�죿��Ȼ���ǵ�����ʹ���� mistralai/Mistral-7B-v0.1 ��Ϊ����ģ�ͣ�����ʵ������ѡ���ģ��� Mistral v0.3 ֧�� �������� ; �����ỹ������ϵ�е�ģ���ˣ��� Llama 3���ܵ���˵�������ּ�����Ч�����ܸ��õ��»���ģ�Ͳ��ϳ��֡�
�����õ��ģ�ֻҪ���� �㹻������ ��������ģ�ͣ�����ѵ�� LoRA ��ԱȽ����ף�ѵ��Ҳ��ԱȽϱ��ˣ���ʵ�ϣ� Predibase ���� ѵ��һ�� LoRA ����Լ 8.00 ��Ԫ��ʹ���ִ���ܺͳ��ù���ʵ������Ҫ�Ĵ���Ķ�Ҳ���١�������������:
��-LoRA ������ AI ģ�Ͳ���ĸ����Է�����Ϊ����͹������ר��ģ�Ͳ���ijɱ��͸����������ṩ�˽��������ͨ�����õ�һ����ģ�Ͳ���̬Ӧ��΢������������������������֯����Ӫ������ͬʱ����������ǿ����������ܡ� ���Ǻ��� AI �ܼ��Ǵ󵨲��ɸá�����ģ�� + ��-LoRA�� Ӧ�÷�ʽ ���Ӷ�ӵ����������ļ��Ժͳɱ���Լ�������ö�-LoRA ��Ϊ�� AI ս�ԵĻ�ʯ��ȷ�������֯�ڿ��ٷ�չ�ļ�������ʼ�ձ������ȵ�λ��
ʵ�ֶ�-LoRA ������ܷdz����֣��������� punica-ai �� lorax �Ŷӿ������Ż������ӺͿ�ܣ��ù����Ѿ��ܸ�Ч�ˡ�TGI ������Щ�Ż���Ϊ��� LoRA ģ���ṩ���ٸ�Ч��������
�ر��л Punica��LoRAX �� S-LoRA �Ŷ��ڶ�-LoRA �����������ij�ɫ�����ŵĹ�����
Ӣ��Ô��: https://hf.co/blog/multi-lora-serving
������: Derek Thomas��Diego Maniloff��David Holtz
����: Matrix Yao (Ҧΰ��)��Ӣ�ض����ѧϰ����ʦ����������Ϊ transformer-family ģ���ڸ�ģ̬�����ϵ�Ӧ�ü����ģģ�͵�ѵ��������
ʹ��Blender���ɳ���ģ��
�Ķ�ȫ����������ERA5�����ط���
�Ķ�Xpath���������﷨
�Ķ�����ѧϰ�������繹�����£�
�Ķ���ΪMateƷ��ʢ�䣺HarmonyOS NEXT�ӳ�����Ϸ���ܵõ�����ͷ�
�Ķ�ʵ�ֶ��󼯺���DataTable���໥ת��
�Ķ�Ӳ�̵Ļ���֪ʶ��ѡ��ָ��
�Ķ�������й��ƶ��ı�ͼ��ײ�
�Ķ�����NEXTԪ�����������ѿ����ϼ���Ʒ
�Ķ��ᳲ���С������������Ƽ��رշ���
�Ķ������ArcMap�����н���դ��ͼ���ز�������
�Ķ��㷨�����ݽṹ 1 - ģ��
�Ķ���Ѷ�����߿ͷ���Ӫ��ϵͳ����
�Ķ���Ѷ��Ƶҹ��ģʽ���ý̳�
�Ķ����ں���NEXT��Ѫ���Ŵ���������������
�Ķ�5. Spring Cloud OpenFeign ����ʽ WebService �ͻ��˵ij���ϸʹ��
�Ķ�Java����ģʽ����̬�����Ͷ�̬�����ĶԱȷ���
�Ķ�Win11�ʼDZ����Զ�����Ӧ�õ���ɫ����ʾ����
�Ķ�˼�� V1.5.6 ��׿��
��ս�귨 V7.5.0 ��׿��
У��������������׵������� V1.0 ��׿��
��˸֮�� V1.9.7 ��׿��
������Ե����� v1.0.4 ��׿��
������֮ŠV5.2.3 ��׿��
��������������Դ V1.0 ��׿��
���֮Ϣ V1.0 ��׿��
��ħ������������䣩 V1.0 ��׿��
���ں�������ϵ�����������������վ�����������������Ƽ�����
Ƶ�� ����Ƶ��������ר������������׿�������app����
�Ƽ� ��Ô���������°��������ܿ������ز���
���� ����ɫ������������ ���������ս������������
ɨ��ά�����������ֻ��汾��
ɨ��ά����������΢�Ź��ںţ�
��վ�������������������ϴ��������ַ���İ�Ȩ���뷢�ʼ�[email protected]
��ICP��2022002427��-10 �湫��������43070202000427��© 2013~2025 haote.com ������