Вы используете линейную регрессию с одним нейроном, один нейрон может изучать только прямую линию независимо от того, какой набор данных вы предоставляете, где W действует как наклон, ваша сеть выучила оптимальный W для вашего X, так что WX дает минимальную ошибку ,
Диаграмма разброса (красная точка) выходных данных показывает значения вашего набора данных, вы можете заметить, что набор данных не является линейным, поэтому, даже если вы тренируетесь 1M раз, алгоритм никогда не сойдется. Но выученная функция наверняка оптимальна, так как это прямая линия с минимальной ошибкой.
Итак, я рекомендовал вам использовать несколько слоев с нелинейными активациями, такими как ReLu и Sigmoid. Используйте линейную активацию на выходе, поскольку вы предсказываете действительное число.