以下是关于中国大模型项目招投标的相关信息:
去除噪音信息:常见的噪音信息包括页眉、页脚、版权声明等,这些信息对关键数据提取无关紧要,可以在预处理时过滤掉。规范化文本:处理文本中的特殊符号、空白字符、异常换行等问题,确保输入给模型的文本格式整洁。日期格式统一:文档中可能会有多种日期表示方式,例如“2024年10月10日”、“10/10/2024”、“10-Oct-2024”。需要通过正则表达式或日期识别工具将所有的日期格式统一转换为标准的ISO格式(如“YYYY-MM-DD”)。方法:使用正则表达式匹配不同格式的日期,并将其标准化。例如:参考代码货币与金额格式化:货币和金额在招投标文件中非常常见,可能以不同的符号、单位或表示方法出现。例如:“$1,000”、“1000美元”、“壹仟元整”。需要统一这些金额表示,确保货币单位和金额数字的格式标准化。方法:通过正则表达式匹配货币符号或中文大写金额,并转换为标准形式。例如将“壹仟元”转换为“1000 CNY”,或将“$1,000”转换为“1000 USD”。特殊符号处理:招投标文件中可能有特殊符号(如版权符号、数学符号、货币符号等),这些符号如果不加处理,可能在后续的模型输入中失去原意或导致模型误解。因此,预处理模块需要对这些符号进行规范化处理。表格数据处理:表格提取工具:对于PDF或Word文档中的表格,可以使用表格解析工具(如pdfplumber或python-docx)提取表格的结构和数据。提取后的表格数据可以转化为CSV或JSON格式,方便后续处理。
据QuestMobile数据,今年9月,豆包App的30日留存率[1]达到34.5%,而Kimi智能助手和MiniMax的海螺AI都是约28%。一位月之暗面人士告诉我们,他们在9月逐一列出了豆包有,而Kimi没有的功能点,开始仔细分析去年还不被视为对手的豆包。大公司也在更强势地争取大模型API客户。AI儿童玩具公司Haivivi CEO李勇告诉我们,此前他们一直用MiniMax的语音模型,而当其产品在抖音热卖后,字节联系到他们,称可提供优惠价的豆包大模型API,还承诺升级抖音店铺。李勇说,现在Haivivi会同时调用MiniMax和豆包的语音模型。几乎投了所有头部大模型公司的阿里,也是创业公司的API和To B业务潜在对手。阿里是中国最积极做开源大模型的公司。到今年9月,其Qwen系列开源大模型的总下载量已超4000万次,衍生出了5万个大模型,仅次于Meta的Llama系列。这可能会让本想购买创业公司大模型API,或让创业公司定制模型的客户转而投向开源生态。我们了解到,去年为大客户定制一个大模型,最高订单额可达1000万元,而今年则快速降到了百万元级别,乃至更低。在更底层的模型研发上,字节也展现出“饱和”进攻的姿态。视频生成模型是一个缩影。据了解,月之暗面从去年10月就开始做视频模型,起步很早;而在去年四季度朱文佳的OKR中,尚看不到视频模型的相关描述。
5⃣️五家北京企业机构:百度(文心一言)https://wenxin.baidu.com抖音(云雀大模型)https://www.doubao.com智谱AI(GLM大模型)https://chatglm.cn中科院(紫东太初大模型)https://xihe.mindspore.cn百川智能(百川大模型)https://www.baichuan-ai.com/3⃣️三家上海企业机构:商汤(日日新大模型)https://www.sensetime.com/MiniMax(ABAB大模型)https://api.minimax.chat上海人工智能实验室(书生通用大模型)https://intern-ai.org.cn今天这8个大模型,在聊天状态下——能生成Markdown格式的:智谱清言、商量Sensechat、MiniMax目前不能进行自然语言交流的:昇思(可以对文本进行是否由AI生成的检测,类似论文查重,准确度不错)、书生受限制使用:MiniMax(无法对生成的文本进行复制输出,且只有15元的预充值额度进行体验,完成企业认证后可以进行充值)特色功能:昇思——生图,MiniMax——语音合成阿里通义千问、360智脑、讯飞星火等均不在首批获批名单中,广东省2家和其他省市1家也将陆续开放据悉,广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品