Thread - Nostr Hypermedia

LLM在不同规模的问题上表现差异巨大。比如日常翻译，4b以内的模型已经表现良好，为什么要用40b的模型？而对有些复杂问题，400b也达不到能用。业内领袖们声称马上到来的了不起的AGI是无限套娃的MoE？🤣