LLM在不同规模的问题上表现差异巨大。 比如日常翻译,4b以内的模型已经表现良好,为什么要用40b的模型?而对有些复杂问题,400b也达不到能用。 业内领袖们声称马上到来的了不起的AGI是无限套娃的MoE?🤣