将特征通过线性变换再通过sigmoid函数得到了对应预测值0或1.
如果我们从另一个角度看,把整个sigmoid看成预测成1的概率,那么也是一样的表达式,因为z小于0时预测为1的概率很小;由于1-P(y=1)=P(y=0)即非1即0的概率之和为1,那么为0 的概率就是1减去sigmoid函数
我们的目标是这个概率应该最大化,