675 位酷友已加入
本圈子收集关于人工智能的各种技术资料,加入圈子可以上传、下载资料,也可以使用提问来寻求资料或分享你认为有价值的站外链接~
用于视频,音频和语言的多模态多功能网络 介绍 该模型为TSMResNet50-Audio-Text预训练模型,可以用作视频特征提取器,音频特征提取器,或用于计算简短视频片段和句子之间、视频片段和音频流之间、音频流和句子之间的相似度。该模型是使用未经整理的视频(仅包含音轨和口述)进行训练的。 使用范例 导入tensorflow和tensorflow hub 输入以下类型的张量: 注意: 视频网络是完全卷积的(最后是时间和空间的全局平均池),但是建议使用T = 32帧(与训练时相同)。对于H和W,我们一直使用200到256之间的值。注意训练期间使用的帧频为10,建议也将其用于输入剪辑(3.2秒)。 音频网络也是完全卷积的(最后在时间和频率上具有全球平均池),但是建议以48kHz(3.2秒)的频率使用T'= 153600。频谱图的计算将直接在图中进行,因此只提供原始音频信号作为输入。 在测试模式下加载模型: 或者,可以在训练模式下加载视频模型以激活批量归一化训练模式: 结果: 注意: vision_output是包含三个键的字典: before_head:这是TSM ResNet50维度2048的全局平均合并特征,应将其用于下游任务的分类。 va:这是来自联合视频音频空间的视频嵌入(大小为512),它应该用于使用音频嵌入来计算与音频输入的相似性分数。 vat:这是来自联合视听文本空间的视频嵌入(大小256),它应该用于使用文本或音频嵌入来计算与文本或音频输入的相似性分数。 audio_output是包含三个键的字典: last_conv:这是ResNet50音频网络的输出特征(在平均池化之前),特征尺寸为2048,时空频率尺寸取决于输入的大小。这应该用于下游任务的分类。 va:这是来自联合视频音频空间的音频嵌入(大小512)。应该使用视频嵌入,将其用于计算与视频输入的相似度得分。 vat:这是来自联合视听文本空间的音频嵌入(大小256)。它应用于使用文本或视频嵌入来计算与文本或视频输入的相似性分数。 text_output是包含单个键的字典: vat:这是来自联合视音频文本空间的文本嵌入(大小256)。要计算文本和视频之间的相似性得分,您需要计算video_output的增值税输出和text_output的增值税输出之间的点积。 用于计算所有成对相似性的示例: 转载https://tfhub.dev/deepmind/mmv/tsm-resnet50/1
人类自由指数(人身,公民和经济自由的衡量) 介绍 人类自由指数是对全球所有人关于人身,公民和经济自由的衡量,是对世界上整体自由的程度进行广泛而合理的描述。 同时,研究人类自由指数可以更仔细地探索我们所指的自由,并更好地理解自由与任何其他社会和经济现象的关系。 内容 包含三个文件 hfi_cc_2018.csv hfi_cc_2019.csv hfi_cc_2020.csv 人类自由指数代表了人类自由的广泛度量,被理解为缺乏强制约束。它在以下领域使用了79个关于个人和经济自由的指标: 法律规定 安全保障 运动 宗教 协会,议会和公民社会 表达与信息 身份与关系 政府规模 法律制度与财产权 获得健全的资金 国际贸易自由 信贷,劳工和商业法规 转载https://www.kaggle.com/gsutters/the-human-freedom-index
雾路图像(道路上雾的图像文件) 介绍 雾霾是冬季道路上的最大障碍,雾霾对健康也有着极大的影响,例如由雾霾引起的呼吸问题,呼吸系统疾病。 通过机器学习模型可以确定道路的可见性,从而减少交通事故,也可以给出关于呼吸系统疾病的预防措施。该数据集还可用于其他各种研究, 内容 数据集包含早晨和傍晚具有不同类型的雾的各种道路的图像,例如均匀雾,非均质雾,多云雾等。 数据由包含不同类型雾的100条雾路图像组成,这些文件为png格式。 转载 https://www.kaggle.com/dhruvagg/foggy-road-images