这个答案只是为了制定一种路线图。我认为这个问题涉及到一些机器学习的概念,您使用了正确的“statistics“标记。你需要构建一个字典插件,从你的新帖子中学习。可能需要做如下操作:
手动创建第一个json filter dataset 在您的语言中使用最多的单词(如。https://1000mostcommonwords.com/1000-most-common-english-words/). 我没有找到它的API。它会过滤掉所有被认为或你认为不相关的单词(如介词、代词等)编写一个函数,处理所有现有帖子,并将您感兴趣的内容(描述、标题等)导出到a second json dataset. 您已经拥有post_meta
要利用的,作为数据库源。请记住将每个内容分配给post_id
因为您需要处理更新或删除创建一个函数,在更新或发布的新帖子上更新json定义一个比较前一个2 json sources, 过滤出单词并生成a new final json file 进行分析。您可以将声明性方法用于array_map
或array_filter
内置功能最后,构建一个逻辑来统计每个单词的出现次数,存储在一个新的数据库表中,并将其显示在仪表板页面中如果博客内容丰富,并且您经常更新过滤器数据集,我想解析活动会在一段时间后变得非常激烈。让我们看看这些库,它们可以帮助:
php机器学习库https://php-ml.readthedocs.io/en/latest/使用PHP进行事件驱动、非阻塞I/Ohttps://github.com/reactphp/react祝您玩得开心,并分享结果。