����λ�ã���ҳ > �����̳� > �̳� > �Ƽ�ϵͳ�����Ŷ�Ŀ���ں��볬����ѧϰ����

�Ƽ�ϵͳ�����Ŷ�Ŀ���ں��볬����ѧϰ����

��Դ������������|��ʱ�䣺2024-05-18 18:47:31 |���Ķ���66��|�� ��ǩ�� ϵ �� ��ѧ �� |����������

����/���ŵĸ��Ի�������ѧϰģ�ͣ���Ԥ��20�����ͬ��Ԥ��ֵ�������ʡ���Ч�����ʡ�����ʱ���������ʡ���ע�ʵȣ�����������������أ��Ӷ�����ѧϰ����Ŀ�������м���һ�����ɣ�����ΰ���ЩԤ��ֵ�ںϳ�һ����һ������֣����ʵ�ֶ�Ŀ�꾫�š���Ҳ�������˱���Ҫ���ܵ����⣺��Ŀ���ںϣ�multi-task

����������ָ��������һ�����״̬�����ҽ��������������˵�Ч�þ��޷������κ�һ���˵�Ч��ʱ���������״̬�ͳ�֮Ϊ���������š�

1 ����

1.1 �Ƽ�ϵͳ�����ܹ�

�ڽ��ܶ�Ŀ���ں�ģ��֮ǰ�����������ع�һ���Ƽ�ϵͳ�Ļ����ܹ����Լ���Ŀ���ں�ģ�����Ƽ�ϵͳ�������Ļ���λ�á�һ���ڸ��󳧣������ [1] ������ [2] ��������� [3] �ȣ��г����ġ����©���͡��Ƽ�ϵͳ�ܹ����£�

ÍÆ¼öϵͳ£º¾«ÅŶàÄ¿±êÈÚºÏÓ볬²ÎÊýѧϰ·½·¨

���������У��ٻء����š�����+��Ŀ���ںϡ�����/���������š��칹�������ڷ���˽��У������칹�������з����ƶ��˵� [4] ������������ [4] �����ƶ��˽��С�������½���һ����Щ��������ã�

  • �ٻ� �ٻ����Ƽ�ϵͳ�ĵ�һ����������ٴӴ�������Ʒ��ɸѡ��һ���ֺ�ѡ��Ʒ��������������ǧ��/���ò¼¶½ï¿½ï¿½ï¿½1�����ҡ��ٻز�����Ҫʮ��׼ȷ������Ҫ��©���û�����ϲ������Ʒ���ٻ�ģ��ͨ�����ö�·�ٻأ����������Ӵ����������һ���ʹ��һЩ�ò»¯µï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½Ä£ï¿½Í¡ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½Ù»ï¿½Ä£ï¿½Í°ï¿½ï¿½ï¿½Ð­Í¬ï¿½ï¿½ï¿½Ë¡ï¿½FM��DSSM˫��ģ�͵ȣ�����������ݺ�ͼ���ݣ���������ģ��SASRec��ͼģ��GraphSAGE�ȡ��ٻ���Դͷ����ij�������Ͼ����������Ƽ�ϵͳ���ֵ��컨�塣
  • ���� ���ſ�������Ϊ����ǰ��һ�ֹ��˻��ƣ����ᾫ�ŵ�ѹ���������������Ӵ�1�����ҽ���1ǧ/���١����ô���ģ���ԭ������ʱ���ٻؽ������̫�࣬���Ų���ٶȸ����ϡ�����Ҫͬʱ��˾�׼�Ժ͵��ӳ٣���ģ��һ��Ҳ����̫���ӡ�������ڴ��Ŵ����ٻغ;���֮�䣬��˴�����Ҫ��ȡ�����ø��������·����Ϣ������Ч�������ź;��ŵ�����Ҳ��Ϊʵ�ʹ���������Ҫ���ٵ���ս��
  • ���ţ� + ��Ŀ���ںϣ� ���Ÿ����ȡ���ŵĽ�������Ժ�ѡ�����д�ֺ����ò¡£¾ï¿½ï¿½ï¿½ï¿½ï¿½Òªï¿½ï¿½ï¿½ï¿½ï¿½Ê±ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½Â£ï¿½ï¿½ï¿½Ö¤ï¿½ï¿½ÖµÄ¾ï¿½È·ï¿½Ô£ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ÏµÍ³ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½Òªï¿½ï¿½Ò»ï¿½ï¿½Ä£ï¿½é£¬Ò²ï¿½ï¿½ï¿½î¸´ï¿½Ó¡ï¿½ï¿½Ð¾ï¿½ï¿½ï¿½ï¿½ï¿½Ò»ï¿½ï¿½Ä£ï¿½é¡£ï¿½ï¿½Í¬ï¿½Ú´ï¿½ï¿½Å³ï¿½ï¿½ï¿½Ê¹ï¿½Ã¼òµ¥µï¿½Ë«ï¿½ï¿½Ä£ï¿½Í£ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½Ä£ï¿½ï¿½ï¿½Ï¶ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½Ä±È½Ï¸ï¿½ï¿½Ó¡ï¿½Ä¿Ç°ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½Ä£ï¿½ï¿½ï¿½Ñ±ï¿½ï¿½ï¿½ï¿½Ñ§Ï°Ä£ï¿½Í¡ï¿½Ò»Í³ï¿½ï¿½ï¿½Â¡ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½Wide&Deep��DeepFM��DIN�ȣ����ʹ��Attention����DIN�����Ա�ѧϰ��Ǩ��ѧϰ�Ȼ��������ģ�;��ȡ������ڹ�ҵ���ʵ���г����ж������ָ�꣬���ֳ�ʹ����ȶ�����ѧϰ��MTL��ģ�͡�������ھ��Ź�ע������Ʒ������������loss�಻ͬ�ڳ�����loss������������ѧϰ��Learning to Rank��������������ơ���LTR������������������������ʧ����loss�IJ�ͬ���ַ�Ϊpointwise��ʽ��pairwise��ʽ�����ࡣ
  • ���� ����ģ��������Ƕ�֮ǰ����ģ��Ľ�����ж��������������Խ�һ������Ƽ���׼ȷ�Ⱥ͸��Ի��̶ȡ�������Ҫ����������������м�ֵ��󻯣�Ҳ����νlistwise����ͬ�ڵ�itemЧ�����ۼƣ��������Ƽ��б��Ķ����Եȵȡ�����һ��������ɢ������ҵ����Ӫ���ض�ǿ������ͬ������ʹ�ø��ӵ�ģ�͡����⣬���Ż��������ƶ����ϣ�����ν�������š�
  • ���� ���ŵ��������ڽ���Դ�칹���ݣ�������Ƶ�͹�棩�ķ��ؽ������ǡ����ϣ��õ�һ���ۺϼ�ֵ���ķ������С�

1.2 ��Ŀ���ںϣ�MTF�����

��ͬ��ѧ����ֻ���ǵ��ratingsԤ���������������Ƽ�ϵͳ��ģΪ�򵥵Ķ��������⣬Ȼ�����������㵥��AUC����HR/MRRɶ�ģ����Ƽ�ϵͳ���Ż�Ŀ���ڹ�ҵ���ʵ���г������ж���ģ��Ҵ��Ϊ����ָ�꣩�������Ƕ���Ƶ�Ƽ��������Զ���Ƶ�Ƽ�����Ϊ�������Ƽ�ϵͳ������ģ�����У�������Ҫ�����û���ʹ��ʱ��/�����������ٸ��������Ӷ�����û������档����Ƶ�Ƽ������е��û������ɷ�Ϊ���ࣺ

  • ��ʽ������ �û�����������Ϊ���粥��ʱ������������ʡ��겥�������ȵȡ�
  • ��ʽ������ �û�����ʶ�������ķ��������ղء����ء���ע�����ޡ������������۵ȵȡ�
  • ��ʽ������ �û���ʽ����ĸ���������̲��š��û���ֹһ��session�ȡ�
  • ��ʽ������ �û���ʽ����ĸ��������粻����Ȥ���������ۡ��ٱ��ȡ�

���ǵ�Ŀ������������������ٸ�����������û����顣Ȼ��������֮ǰ˵��������/���ŵĸ��Ի�������ѧϰģ�ͣ���Ԥ��20�����ͬ��Ԥ��ֵ�������ʡ���Ч�����ʡ�����ʱ���������ʡ���ע�ʵȣ�����������������أ��Ӷ�����ѧϰ����Ŀ�������м���һ�����ɣ�����ΰ���ЩԤ��ֵ�ںϳ�һ����һ������֣����ʵ�ֶ�Ŀ�꾫�š���Ҳ�������˱���Ҫ���ܵ����⣺ ��Ŀ���ںϣ�multi-task fusion, MTF�� ��

ÍÆ¼öϵͳ£º¾«ÅŶàÄ¿±êÈÚºÏÓ볬²ÎÊýѧϰ·½·¨

����ͼ��ʾ����Ŀ���ں�ģ���ھ���MTLģ��������Ԥ����������Ӧ���������û��ķ�����֮�󣬶Զ��Ԥ�����������ںϣ��������ںϵĴ�ֽ��о��ţ������뵽����������ģ�顣

2 ��Ŀ���ںϷ�������

2.1 �ֹ��ں�

��򵥵Ķ�Ŀ���ںϷ�ʽ�����ֹ��ںϣ�һ����� ���Լӷ� �� ָ���˷� ���֣�

  • ���Լӷ�
    ���Լӷ����ںϹ�ʽ���£�

    ���� \(\text{score}_i\) Ϊ���ŵĶ�����ģ�ͶԵ� \(i\) ��Ŀ���Ԥ�������������ۿ�������ϲ�����ۿ�ʱ���Ŀ���Ԥ��������

    ���Լӷ�����������֣�������ü�ȨLogloss��

    ���Լӷ����ŵ�������Ŀ��Ȩ�ؾ�ָʾ��Ŀ�����ںϹ�ʽ�е���Ҫ�ȣ�ֱ�����ĸ�Ŀ�����Ҫ���Ǿͽ��ĸ�Ŀ���Ȩ�ص��󡣵�Ȼ��ȱ��Ҳ�dz����ԣ����Ȩ��ϵ�������������͵�Ŀ�궼��һ��ͬ�ʵġ���ʵ�϶��ڵ�������ϡ��Ŀ�꣬������Ӧ����Ԥ�������ߵ�Ȩ�ظ��ߣ���Ծ���û�Ȩ�ظ��ߣ���Ԥ�������͵�Ȩ�ظ��ͣ�����Ծ�û���Ȩ�ظ��ͣ�����������ʽ��Ŀ����Ȼ��������

  • ָ���˷�

    �����Լӷ�����һ����Ψһ�������ǰ��ۼӻ������۳ˡ����ŵ��ȱ�����ú����Լӷ��෴�����ŵ��ǿ���������ǿ�ߵ�Ԥ�����������Ƶ͵�Ԥ����������ȱ���Dz��ܵ���һĿ���ָ��Ȩ�أ���Ϊ����򵥵ظ���һĿ������ָ���Ǿ��൱�ڶ�����Ŀ�궼��Ч�ˣ��ȼ����ںϹ�ʽ�����һ��ϵ������

�������ڶ�Ŀ���ںϵij���ʵ���в��õľ��Ǽӷ��ںϵķ�ʽ������������������÷ֶԸ���Ŀ��ĵ÷�ֵ������У�Ҳ�����ױ�ijЩ����ƫ���Ŀ���������������������Ŀ��Ϳ��ܴ���һЩ����ƫ����쳣ֵ����������������� \(\alpha\) �� \(\beta\) �����������������ϵ��ڸ���Ŀ��÷ֵ�������������������Ҳ�͵õ���������ʾ�� ��Ȩָ���ӷ� [5][6] �Ĺ�ʽ��ʽ��

  • ��Ȩָ���ӷ�

    ���� \(\text{factor}\) Ϊ����������ʾ���Ȩ�أ� \(\beta\) Ϊ��������������������������Դ����� \(\alpha_i\) ��Ϊ����������ʾ�����ȡ�

�������ڹ���ʵ���з��֣���ҵ��Ŀ�����ʱ��ͨ���ӷ��ںϹ�ʽ����Ŀ����Զ����ڿ��ٻ�����档������Ŀ��������ʱ���ӷ��ںϹ�ʽ���ں������������ޡ�������Ϊ�Լӷ��ںϹ�ʽ���ԣ�����Ŀ��󣬸���Ŀ�����Ҫ��Ӱ�����������⣬�������Ѿ������˳����� \(\alpha\) �� \(\beta\) ������£��ӷ��ںϹ�ʽ��Ȼ���ױ�����Ŀ���������������˷��ںϹ�ʽ�Ͳ�������Щ���⡣��ˣ��ڴ˻����ϣ��������ְѶ�Ŀ���ںϹ�ʽ����Ϊ�˳˷���

  • ��Ȩָ���˷�

    ���﹫ʽ����������������ʽһ�£�ֻ�ǰ��ۼӻ������۳ˡ�

�ֹ��ںϵ��ŵ�������Ŀ��Ȩ�ؾ�ָʾ��Ŀ�����ںϹ�ʽ�е���Ҫ�ȣ��Ƚ�ֱ���ҿɽ�����ǿ����Ȼ��ȱ��Ҳ�dz����ԣ����Ȩ��ϵ�����������û�����һ���ģ�ȱ�ٸ��Ի������⣬�������۶�Ԥ������ʹ�üӷ����dz˷��ķ�ʽ���ںϣ�ģ��servingʱ�ij���������ͨ�� ����������grid search�� [7] ���õ��������ŵļ���⡣������֪�����Ƽ�ϵͳ��ʵ�ʱ��ֻ���Ҫ����A/Bʵ�����ȷ���ģ��⵼�¸÷���Ч�ʽϵ͡���������ģ�͵ĵ����������ֲ��ı仯�����Ų���Ҳ�ڱ仯������ֹ��ںϵ�ȱ�㻹������ά���ɱ��ߣ���Ϊ����Ҫ���ж�ε��ֹ���������

��ô�������Ƿ������ģ����ѧϰ�������أ�����漰���� �ںϳ�������ѧϰ���� [8] �ˣ�Ҳ����һ��ģ����ѧϰ��Ԥ�����������Ȩ�ء�

�����ںϳ�������ѧϰ���������ԣ��������뵽��Ӧ�������߷�����Ҳ������һ������ģ����ѧϰ��Ԥ�����������Ȩ�ء����ַ������ŵ��ȱ�㶼�����ԣ��ֱ�������ʾ��

  • �ŵ� ���߷�����off-policy�ķ��������������ʸߣ�100%���������Ա�ʹ�ã�����ģ�͵����ɶȺ͸��ӶȽϸߣ���������item embedding��ʹ��ϡ������������ѵ��ǧ�ڹ�ģ�IJ�����

  • ȱ�� ��������AUC�޷�ֱ�ӷ�ӳҵ��ָ�ꡣ��Ϊ����������˺ܶ�ò»¯£ï¿½ï¿½Æ¼ï¿½ÏµÍ³ï¿½ï¿½ï¿½Ç¾ï¿½ï¿½ï¿½Ö®ï¿½ï¿½ï¿½Ö±ï¿½Ó¶Ô½ï¿½ï¿½Ã»ï¿½ï¿½Ë£ï¿½ï¿½Ð¼ä»¹ï¿½ï¿½ï¿½ï¿½ï¿½Å£ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½Ô£ï¿½ï¿½Èµï¿½Ó°ï¿½ì£¬ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½Ò»Ð©ï¿½ï¿½Òµï¿½ï¿½/��Ӫ�����Ļ����ںϣ����Ը÷������Կ��ǵ����ϸ��Ӷ�ģ��������Ӱ�졣���⣬����ѵ�����ݺ���������Ҳ���ڷֲ���һ�µ����⡣

���ǵ����߳�����ѧϰ�������е�������ȱ�㣬��ʵ�ʹ�ҵ���Ӧ���У����dz���ʹ�����ߵij�����ѧϰ���������߷����Ĺ�����������ͼ��ʾ��

ÍÆ¼öϵͳ£º¾«ÅŶàÄ¿±êÈÚºÏÓ볬²ÎÊýѧϰ·½·¨

���Կ��������߳�����ѧϰ�㷨���� ̽�������� ���ƣ�����baseline����̽������ \(N\) ������������Ƽ�ϵͳ������ \(N\) �������Ӧ��չ�ָ��û��IJ��컯���������Ӷ���ò�ͬ�û��ķ�����֮�����ռ���Щ������־�������棨reward��ͳ�ƣ������͸�BayesOpt/ES/CEM�ȵ����㷨������һ����õIJ�����������ͣ�����������ͻ���һ����Ŀ��Э�����ŵķ���ǰ����

���ߵij�����ѧϰ��������������ȱ�㣺

  • �ŵ� ֱ���Ż�����ָ�꣬����Ը��ҷ���Ѹ�٣����ҿ��԰��Ƽ�ϵͳ����һ���ںУ���������ڲ�ϸ�ڡ��ҿ������ೡ�������Ż���������ranking�����ٻصȳ���Ҳ�����á�

  • ȱ�� ��Ҫ�����ϻ��ֳ�һ����̽����������Լ5%�����Ӷ�Ӱ���ٲ����û����飬����������ϡ�裬������Ӱ��ϴ�������һЩϡ��Ķ�����ǩ��������������ء��ղصȣ������ɵIJ�������С��һ�㼸ʮ�����٣��������ѧϰ�IJ�����ģС�ܶࡣ

���������߳�����ѧϰ�������� ��Ҷ˹�Ż�������Bayesian optimization�� [9] �� ���������㷨��evolutionary strategy�� [10] �� CMA-ES����Ӧ�����㷨 [11] �ȣ�����������Ҫ���ܱ�Ҷ˹�Ż������ͽ���ѧϰ�㷨��

2.2 �ںϳ�����ѧϰ����

2.2.1 ��Ҷ˹�Ż��㷨

��Ҷ˹�Ż��㷨��ֿ�������ʵ���������棬ͨ���ռ�����С�������飬����С����ʵ���������������в����Ż���

��Ҷ˹�Ż��Ļ���˼������������ʵ�Ż�����������̫����Ǹ��ںУ������Ƽ��������û�����ʵ�������棩��������Ҫ��һ�� ����������surrogate function�� �������������ڴ���������Χ��������Сֵ��ĸ������������ڻ�û�в���������������µĵ�֮�����ǾͿ��Ը��´���������ʹ֮���ϱƽ�Ŀ�꺯�������dz����� ��˹���̣�Gaussian process, GP�� ����ģ���ʴ��������ķֲ���Ȼ�������һ�� �ɼ�������acquisition function�� �����ڸ�˹���̻ع�Ľ����������һ����ܸ��ŵIJ����㣨ʹ�ɼ�������󻯣���ע�⣺����֮����ʹ�ɼ�������󻯣�������ֱ��ʹ����������󻯣���Ϊֱ���Ż�������������Ŀ���dz�ˣ���Ϊ���ǻ�Ҫ���Dz�ȷ���ԡ���ʵ�ϣ���Ҳ��һ��̽����exploration�����Ƶ����֡���Ҷ˹�Ż������������IJ�֮ͬ�����ڣ����ڳ����µij��������ʱ�ῼ��֮ǰ�������������������֤�ݣ���evidence����Ϣ�����ƴ��������ĺ���ֲ����������ڴ������������ɼ������ļ�ֵ���Ӷ�ȷ����һ�������㡣

��Ҷ˹�Ż����������ؼ���ɲ��֣�

  • ���ʴ���ģ�� ���ڶԴ��������ķֲ����н�ģ���ڵ�����ʼǰ��ʼ��Ϊһ��ָ��������ֲ������õĸ��ʴ���ģ���У���˹���̣�GP��������Parzen��������tree-structured parzen estimator, TPE���������硢�������ȡ�
  • �ɼ����� \(u\) �ɼ��������ں���ÿһ����ֵ��̽���ij̶ȡ�ÿ�ֵ����㷨��������еĸ�˹���̣��Ӻ�ѡ����ѡ����һ���ĵ�������ʹ�òɼ�������󻯡���Ҷ˹�Ż�Ч���ܲɼ�������Ӱ��ϴ�ѡ�ñ²»ºï¿½ï¿½ÊµÄ»ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½Ö²ï¿½ï¿½ï¿½ï¿½Å½â¡£ï¿½É¼ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½Ñ¡È¡ï¿½ï¿½ï¿½Ô¿ï¿½ï¿½ï¿½Ò»ï¿½ï¿½Ì½ï¿½ï¿½-�������⣬���òɼ������������������Ͻ磨Upper Confidence Bound, UCB��������POI������EI�����ȣ�������Ϊ�����õ���UCB��������

���ȣ��㷨���ʼ��һ����������������ֲ���Ȼ��ʼ�������㷨�ĵ� \(t\) ��������α�����������£�

  • ͨ���Ż��ɼ����� \(u\) �Ի�� \(x^{t+1}\) �� \(x^{t+1}=\text{arg max}_{x} \space u(x\mid \mathcal{D}^{t})\) ��
  • ͨ���û������߷������� \(r\) ����Ӧ��Ҷ˹�Ż��е�Ŀ�꺯�����õ� \(y^{t+1}\) ��
  • �����ݽ������㣺 \(\mathcal{D}^{t+1} = \{\mathcal{D}^t,\quad (x^{t+1},\quad y^{t+1})\}\) ��
  • ���¸��ʴ���ģ�ͣ����˹���̻ع飩���õ�һ�����������ĺ���ֲ�����Ϊ��һ������������ֲ�����

�㷨����ʾ��ͼ���£�

ÍÆ¼öϵͳ£º¾«ÅŶàÄ¿±êÈÚºÏÓ볬²ÎÊýѧϰ·½·¨

ע�⣬��ʵ�ʵ��Ƽ�ϵͳ�����У��������ڶ����˹���̵Ĵ���������������֮ǰ��������ں��ݳ˺������� \(\text{score} = \prod_{i=1}^n \space \text{score}_i^{w_i}\) �������ڶ���Ƶ�Ƽ������У� \(\text{score}_i\) ����Ϊ�û�time��like��follow����Ϊ��Ԥ���������û������߷������� \(r\) �����趨Ϊ������Ļˢ���еĵ����ʡ�ƽ����Ƶ����ʱ���ȣ��������� \(\mathcal{D}=\{(x, y)\}\) ������ \(x =(w_1, w_2, \cdots, w_n), y=r\) ��

2.2.2 �������ԣ�ES���㷨

ǰ�潲���Ļ��ڱ�Ҷ˹�Ż��Ķ�Ŀ���ں��㷨��Ȼ������ֹ��ںϵ��������⣬��ģ�͵IJ���������Ŀ���ںϲ�������Ȼ�ǵ�һ�ģ��������Ի����಻�߱���̬����������������Ӧ�ԡ�

�������ڶ�Ŀ���ںϲ������dz����е������ﵽ�˰ټ��𣩣�������Ҫһ�ָ���Ч�����Զ����ķ�ʽ���Ż����������Ӷ��ܹ���̬������ͬ��Ⱥ�ĵ�Ŀ���Ż���������ˣ��������ʹ�ý��������㷨��������ʵʱ����ʵ����Ϊָ������ģ�͵IJ��������Ż���

ע�⣬����ѧϰ��ǿ��ѧϰ���Ż�Ŀ�궼��Ԥ�ڵ�reward����ǿ��ѧϰ�ǽ��������붯���ռ䲢ʹ�÷��򴫲�������������£���������������ֱ��������ռ�ע��������

ÍÆ¼öϵͳ£º¾«ÅŶàÄ¿±êÈÚºÏÓ볬²ÎÊýѧϰ·½·¨

����ͼ��ʾ��ʹ�ý���ѧϰ�㷨�����϶�ģ�Ͳ��������Ŷ��������Ŷ���Ľ��������reward��������Ϊ�˾���ˢ��ͣ��ʱ��/����ʱ��/������ѵȹؼ�ҵ��ָ�꣩�������߽���Сʱ��ģ��ѵ�����۲쵽����ģ�Ͳ�����Ϻ���������ϵ�baselineģ�Ͳ�����

�����㷨�� \(t\) ��ģ�͵���α�������£�

  • �������� \(\varepsilon_1, \cdots, \varepsilon_n \sim \mathcal{N}(\boldsymbol{0}, \boldsymbol{I})\) ��
  • ����reward \(r_i = r (\theta_t + \sigma \varepsilon_i),\space \text{for}\space i = 1, \cdots, n\) ��
  • �� \(\theta^{t+1} = \theta^t + \alpha \frac{1}{n\sigma}\sum_{i=1}^nr_i\varepsilon_i\) ��

�ڹ���ʵ���У��÷����������� ���Ȩ��reward �����⡣�Զ���Ƶ�Ƽ�����Ϊ�������dz�����ע������Ļˢ���е�ƽ������ʱ��������������Ϊ��ϲ������ע�ȣ��ı��ʣ���ô���Ǿ����������ֽ�Ϸ�ʽ��

��ʵ���У�ͨ��reward \((2)\) ���ȶ��Ը��ߡ�

���ǽ�һ������������һ������Ż����⣬��������ɲ�ͬҵ��ָ��֮��Ĵ����˳���Ҳ������ν�ġ����ΰ�ЧӦ�������Ӷ�����ֲ����ţ�����Ч�����������⡣

���������ΰ�����ʱ�����ǿ��Խ�����reward���н�һ����֣����罫interation_rate���Ϊlike_rate��follow_rate������ͬ��ָ�꣺

�ɼ�����reward���Ż��У�����һֱ�ڹ�ܲ�ͬ��Ҫָ��֮����û����󣬼�ʱ����reward����ʽ������׷�����������Ҳ����Pareto����״̬����

���������ֽ��������㷨����һ���Ϊ��Ȼ�������ԣ�natual evolutionary strategy, NES���㷨��������������NES�㷨֮�⣬�����ջ�������Բ�������ʽ�� ����Ⱥ�Ż���particle swarm optimization, PSO�� [5][6] �㷨�����������ںϲ��������㷨������Ҳ����һ�ֽ��������㷨��������ͬ��NES�㷨���������ԣ�PSO�㷨�����ߵģ���ּ�ڴӸ��幹�ɵ�Ⱥ���в����������гɹ��ĸ���������δ������ķֲ���

PSO�㷨ͨ����ʼ��һȺ��������ӣ�����ʽ�ؽ��ж�ε�����������Ž⡣ÿһ�ε����У�����ͨ�����弫ֵ������������������ʷ���Ž⣩��Ⱥ�弫ֵ����Ⱥ�ҵ������Ž⣩�����¸��Ե�λ�á��������������е����ӻ��˸������ʷ���Ž��Ⱥ����������ȫ�����Ž�ֱ��������

����������ǽ��ܵĶ������صĽ����㷨��ȱ���������ȶ��Ժ��Զ�����ѧϰ�ʵ����ԡ����ԣ����������������Э�����������Ӧ���ԣ�covariance matrix adaptation evolutionary strategies, CMA-ES����һ��������Ŀ���ں�ģ�͵�����������Ȥ�Ķ��߿��Բμ����� ��������Ѷ���ų����µĶ�Ŀ���ں�ʵս���ģ��� [11] ��

�ο�

  • [1] �����Σ��������ڿ��ֶ���Ƶ�Ƽ�ϵͳ�е��ݽ�
  • [2] �������������Ż���̽����ʵ��
  • [3] Ԭ�ڷɣ����������Ϣ�������Ƽ�̽��
  • [4] EdgeRec����Ե�������Ƽ�ϵͳ�е�Ӧ��
  • [5] һʸ�ഩ����Ŀ�������ڰ����ն���Ƶ�Ƽ��е�Ӧ��
  • [6] �󳧼���ʵ�� | �����ն���Ƶ�Ƽ�ҵ���еĶ�Ŀ���Ż�ʵ��
  • [7] ������Ѷ���ų����µĶ�Ŀ���ں�ʵս��һ��
  • [8] ��Ŀ�������ڿ��ֶ���Ƶ�Ƽ��е�ʵ��
  • [9] ������Ѷ���ų����µĶ�Ŀ���ں�ʵս������
  • [10] ������Ѷ���ų����µĶ�Ŀ���ں�ʵս������
  • [11] ������Ѷ���ų����µĶ�Ŀ���ں�ʵս���ģ�
С���Ƽ��Ķ�

�������������Ľ�Ϊ������Ϣ����������������ͬ���޹۵��֤ʵ��������

�����Ƶ����

����

ͬ������

����

ɨ��ά�����������ֻ��汾��

ɨ��ά����������΢�Ź��ںţ�

��վ�������������������ϴ��������ַ���İ�Ȩ���뷢�ʼ�[email protected]

��ICP��2022002427��-10 �湫��������43070202000427��© 2013~2025 haote.com ������